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内 容 简介 


本 书 通 过 梳理 大 型 网 站 技术 发 展 历程 ， 庆 析 大 型 网 站 技术 架构 模 
式 ， 深 入 讲述 大 型 互联 网 架构 设计 的 核心 原理 ， 并 通过 一 组 典型 网 站 
技术 架构 设计 案例 ， 为 读者 呈现 一 幅 包括 技术 选 型 、 架 构 设 计 、 性 能 
优化 、Web 安 全 、 系 统 发 布 、 运 维 监 控 等 在 内 的 大 型 网 站 开发 全 景 视 
冬 |。 


本 书 不 仅 适 用 于 指导 网 站 工程 师 、 染 构 师 进 行 网 站 技术 架构 设 
计 ， 也 可 用 于 指导 产品 经 理 、 项 目 经理 、 测 试 运 维 人 员 等 了 解 网 站 技 
术 架 构 的 基础 概念 ; 还 可 供 包括 企业 系统 开发 人 员 在 内 的 各 类 软件 开 
发 从 业 人 员 借 鉴 ， 了 解 大 型 网 站 的 解决 方案 和 开发 理念 。 

未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
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好 评 缆 来 


这 是 我 看 过 的 最 接地 气 的 一 本 介绍 互联 网 架构 的 书籍 ， 深 入 阐述 
了 大 型 网 站 所 面临 的 各 种 架构 问题 及 解决 方案 ， 内 容 通俗 易 懂 ， 而 且 
对 架构 师 的 领导 艺术 进行 了 介绍 ， 很 值得 从 事 互 联网 的 技术 人 员 学 习 
和 参考 。 


IBM 咨 询 经 理 ” 种 新 华 


此 书 读 来 亲切 ， 能 用 不 到 300 页 的 篇 幅 将 网 站 架构 的 过 去 及 未 来 说 
得 如 此 通俗 易 懂 ， 与 作者 多 年 的 亲身 实践 分 不 开 ， 并 由 此 想到 一 个 问 
题 : 当 此 书 人 手 一 本 的 时 候 ， 阿 里 、 腾 讯 、 京 东 .……. 的 面试 官 们 怎么 
办 呢 ? 


Oracle 资 深 工 程 师 ” 付 银 海 


智慧 同学 ， 人 如 其 名 ， 在 阿里 巴巴 ， 人 称 “ 教 授 *"， 可 见 其 博学 多 
才 。《 大 型 网 站 技术 架构 : 核心 原理 与 案例 分 析 》 一 书 更 是 其 多 年 积 
淀 厚 积 溥 发 之 作 ， 涵 盖 构 建 大 型 互联 网 应 用 所 需 的 关键 技术 ， 兼 具 实 
用 性 和 前 颇 性 ， 无 论 是 高 并 发 、 高 性 能 还 是 海量 数据 处 理 、Web 前 站 
染 构 ， 都 有 针对 性 的 解决 之 道 。 尤 其 难得 的 是 此 书 还 对 染 构 师 的 内 涵 
及 技术 管理 有 比较 深 刻 地 前 述 ， 实 在 是 同类 书籍 中 难得 一 见 的 。 作 为 


互联 网 应 用 的 开发 者 、 架 构 师 和 创业 者 的 你 ， 一 定 不 要 错过 本 书 ， 本 
书 足以 解决 你 的 扩 术 之 忱 。 


拓 维 信息 平台 研发 总 监 ” 陈 斌 


教授 (本 书 作者 在 阿里 巴巴 的 上 昵称) 曾 在 知名 的 大 型 互联 网 公司 
第 一 线 浴血 多 年 ， 经 验 不 可 谓 不 丰富 ， 然 而 更 难得 的 是 他 不 仅 博 闻 强 
记 ， 更 用 行云流水 的 幽默 文风 ， 将 现代 大 型 互联 网 的 内 部 要 害 一 一 应 
解 。 也 许 各 家 细节 了 略 有 不 同 ， 但 大 部 分 的 大 型 互联 网 站 基本 都 可 以 用 
这 样 的 视角 去 解读 。 相 信 本 书 不 仅 对 程序 员 ， 甚 至 对 很 多 架构 师 也 有 
参考 价值 ， 尤 其 值得 天 注 的 是 教授 在 书 中 颇 多 技术 之 外 的 考量 思索 ， 
我 愿意 称 之 为 互联 网 基因 。 


堆 糖 网 技术 合伙 入 曹 文 灿 


有 季 拜 读 了 这 本 《大 型 网 站 技术 架构 : 核心 原理 与 案例 分 析 》， 
本 书 从 多 个 层面 说 明了 如 何 构 建 一 个 高 可 用 、 高 性 能 、 高 可 扩展 性 的 
网 站 系统 ， 并 结合 了 阿里 巴巴 及 其 他 互联 网 企业 先进 的 架构 实践 经 验 
进行 案例 分 析 ， 讲 述 非常 全 面 且 具 指 导 意 义 。 本 书 从 网 站 的 架构 设 
计 、 快 速 开 发 、 高 效 部 署 、 业 务 监 控 、 服 务 治理 、 运 维 管理 等 多 个 角 
度 描述 了 架构 设计 的 相关 重点 ， 涉 及 的 核心 技术 包括 前 端 优化 、 
CDN、 反 向 代理 、 缓 存 、 消 息 队 列 、 分 布 式 存储 、 分 布 式 服务 、 
NoSQL 存 储 、 搜 索 、 监 控 、 安 全 等 一 系列 保证 大 型 网 站 安全 可 靠 运行 
的 天 键 技 术 点 。 本 书 还 提供 了 网 站 如 何 从 小 型 网 站 伴随 用 户 成 长 ， 逐 
步 扩 展 到 大 型 网 站 的 架构 演进 思路 ， 是 互联 网 染 构 师 们 不 可 多 得 的 一 
本 技术 参考 书 。 


中 兴 通 讯 总 工程 师 ” 钱 煜 明 


设计 和 规划 一 个 网 站 的 总 体 架 构 涉及 方方面面 的 东西 ， 备 选 的 方 
案 也 很 多 ， 如 何在 五 伦 八 门 ， 纷 繁复 杂 的 技术 中 构建 最 适合 用 户 的 网 
站 架构 ， 变 成 了 一 件 极 具 争议 和 挑战 性 的 工作 。 一 个 好 的 染 构 可 以 以 
最 低 的 成 本 ， 在 满足 用 户 需求 的 同时 ， 满 足 整个 网 站 的 架构 灵活 性 ，; 
同样 ， 一 个 糟糕 的 架构 可 能 会 让 你 的 客户 在 花费 了 大 量 金钱 后 ， 得 到 
一 堆 答 重 、 复 杂 且 不 切实 际 的 东西 ， 或 是 由 于 系统 过 于 复杂 ， 故 障 不 
断 ， 或 是 由 于 架构 不 够 灵活 ， 阻 碍 业务 的 发 展 等 等 。 


回顾 网 站 架构 的 发 展 历 程 ， 我 们 可 以 发 现任 何 大 型 网 站 染 构 的 发 
展 都 非 一 跳 而 就 的 ， 同 自然 界 生物 物 竞 天 择 的 自然 进化 规律 一 样 ， 大 
型 网 站 的 架构 发 展 和 演变 也 基本 遵循 着 类 似 的 规律 。 我 们 可 能 无 法 想 
象 几 年 后 网 站 架构 的 样子 ， 因 为 在 互联 网 行业 快速 变化 的 当下 ， 你 其 
至 很 难 准确 地 预测 未 来 一 年 网 站 的 产品 演变 方向 ， 甚 至 网 站 流量 规 
模 。 于 是 ， 产 品 设计 师 和 工程 师 们 提 得 最 多 的 是 迭代 和 演变 ， 这 在 一 
个 网 站 系统 架构 设计 过 程 中 显得 尤为 重要 ， 因 为 我 们 永远 无 法 像 传统 
行业 一 样 ， 去 精确 地 估算 ， 并 按 预先 精确 设计 好 的 图 纸 去 完成 我 们 的 
产品 。 那 是 不 是 网 站 的 架构 设计 和 规划 就 这 无 规律 及 章法 可 循 了 呢 ? 
答案 显然 不 是 ， 在 互联 网 快速 发 展 的 今天 ， 随 着 搜索 引擎 、 电 子 丙 
务 、 社 交 类 等 互联 网 产品 逐步 应 用 到 每 个 人 的 身边 ， 大 型 网 站 的 架构 
及 很 多 关键 拷 术 的 发 展 ， 在 逐步 走向 成 熟 。 在 构建 一 个 大 型 网 站 过 程 
中 可 能 面临 一 些 问题 ， 人 们 正在 尝试 逐渐 总 结 并 积 轮 出 一 些 具有 通用 
性 的 、 经 过 验证 的 且 成 熟 的 局 部 解决 方案 ， 这 也 是 本 书 将 呈现 给 大 家 
的 内 容 。 本 书 中 ， 作 者 以 自己 多 年 大 型 互联 网 网 站 的 架构 经 验 ， 尝 试 
总 结 当 下 这 些 互联 网 行业 中 相对 成 熟 且 经 过 大 量 案例 检验 的 技术 和 方 


杀 o 


相信 通过 阅读 本 书 ， 您 可 以 一 里 大 型 网 站 架构 的 全 瑶 。 


阿里 巴巴 技术 专家 ” 余 俊 


循序 渐进 ， 娓 妮 道 来 ， 语 言 生动 ， 举 重 若 轻 。 


阿里 云 高 级 专家 ” 李 文 兆 


推荐 序 一 


传统 的 企业 应 用 系统 主要 面 对 的 技术 挑战 是 处 理 复杂 凌乱 、 干 变 
万 化 的 所 谓 业 务 逻 辑 ， 而 大 型 网 站 主要 面 对 的 技术 挑战 是 处 理 超大 量 
的 用 户 访问 和 海量 的 数据 处 理 ， 前 者 的 挑战 来 自 功能 性 需求 ， 后 者 的 
挑战 来 自 非 功 能 性 需求 ， 功 能 性 需求 也 许 还 有 “人 月 神话 ” 聊 以 目 慰 ， 
通过 增加 人 手 解 决 问题 ， 而 非 功 能 需求 大 多 是 实 实在 在 的 技术 难题 ， 
无 论 有 多 少 工程 师 ， 做 不 到 就 是 做 不 到 。IT 系 统 应 用 于 企业 管理 已 有 
超过 半 个 世纪 的 历史 ， 人 们 在 这 方面 积累 了 大 量 的 知识 和 经 验 (架构 
模式 ， 领 域 分 析 ， 项 目 管理 ) ， 而 真正 意义 上 大 型 网 站 从 出 现 至 今 不 
过 短 短 十 多 年 的 时 间 ， 很 多 技术 挑战 还 在 摸索 阶段 。 市 面 上 关于 传统 
企业 应 用 开发 的 书籍 汗 牛 充 栋 ， 而 真正 能 够 深入 全 面 地 阐述 大 型 网 站 
技术 架构 的 图 书 寥寥 无 几 。 所 以 很 多 人 就 很 困惑 : 为 什么 很 多 看 起 来 
不 是 很 复杂 的 网 站 ， 比 如 Facebook、 淘 宝 ， 都 需要 大 量 顶尖 高 手 来 开 
发 呢 ? 


值得 庆 盏 的 是 ， 作 者 为 我 们 带 来 了 这 本 《大 型 网 站 技术 架构 : 核 
心 原理 与 案例 分 析 》， 上 比较 全 面 地 阁 述 了 大 型 网 站 的 主要 技术 挑战 和 
解决 方案 。 宏 观 层面 上 ， 将 网 站 架构 的 演化 发 展 、 架 构 模 式 、 核 心 要 
素 一 一 道 来 ;微观 层面 上 ， 将 网 站 架构 常用 的 分 布 式 缓 存 、 负 载 均 
衡 、 消 息 队 列 、 分 布 式 服务 、 甚 至 网 站 如 何 发 布 运 维 都 逐一 进行 了 前 
述 。 大 型 网 站 的 技术 之 道 尽 在 于 此 。 


作者 在 阿里 巴巴 工作 期 间 ， 一 方面 参与 基础 技术 平台 产品 开发 ， 
一 方面 参与 网 站 架构 设计 ， 这 些 经 历 使 作者 能 够 比较 全 面 地 从 理论 和 
实践 两 个 视角 去 看 待 和 描述 网 站 染 构 。 书 中 的 技术 内 容 基本 都 从 为 什 
么 (Why) 要 这 么 做 和 如 何 去 做 (How) 两 个 层面 进行 表述 。 读 者 可 
知 其 然 并 知 其 所 以 然 。 


阅读 本 书 也 许 不 能 使 你 就 此 掌握 大 型 网 站 架构 设计 的 履 龙 之 术 ， 
但 至 少 使 你 对 网 站 架构 的 方法 和 思维 方式 能 有 全 面 了 解 。 


开卷 有 益 ， 应 该 指 的 就 是 这 样 的 书 。 


支付 宝 研 究 员 “” 潘 乔 


推荐 序 二 


这 些 年 互联 网 扩 术 莲 勃 发 展 ， 各 种 成 熟 的 组 件 、 工 具 、 框 架 越 来 
越 丰富 ， 各 种 理论 逐渐 发 展 成 熟 ， 各 大 公司 公开 的 理论 和 实践 资料 也 
越 来 越 多 ， 在 各 个 领域 都 有 比较 成 熟 的 解决 方案 ， 但 是 研究 领先 互联 
网 公司 的 架构 ， 无 论 是 Google、Facebook、Amazon 还 是 淘宝 、 支 付 
宝 、 上 腾讯、 百度 ， 都 各 有 其 独特 的 地 方 。 


各 个 环节 都 有 成 熟 的 产品 或 者 方案 ， 为 什么 这 么 多 互联 网 公司 的 
架构 还 有 如 此 明显 的 差异 呢 ? 是 不 是 照 着 Google、Facebook、 淘 宝 的 
架构 做 ， 就 能 做 好 一 个 “大 型 的 互联 网 应 用 ” 呢 ? 


正如 本 书 中 所 言 :“ 好 的 设计 绝对 不 是 模仿 、 不 是 生 搬 硬 套 某 个 模 
式 ， 而 是 在 对 问题 深 刻 理解 之 上 的 创造 与 创新 ， 即 使 是 “ 微 创 新 *， 也 
是 让 人 耳目 一 新 的 似曾相识 。 山 寨 与 创新 的 最 大 区 别 不 在 于 是 否 抄 
袭 、 是 否 模 仿 ， 而 在 于 对 问题 和 需求 是 否 真 正 理解 与 把 握 。” 


这 些 大 型 的 互联 网 应 用 是 设计 出 来 的 ? 还 是 演化 出 来 的 ? 在 设计 
的 过 程 中 需要 考虑 哪些 因素 ? 演化 过 程 中 都 会 面临 哪些 问题 ， 哪 些 挑 
战 ? 


本 书 从 性 能 、 可 用 性 、 伸 缩 性 、 扩 展 性 、 安 全 性 几 个 网 站 核心 架 
构 要 素 切 入 ， 全 面 地 介绍 了 这 些 核 心 要 素面 临 的 问题 域 、 理 论 基础 及 
应 对 方案 ; 对 这 几 个 方面 进行 系统 地 分 析 ， 结 合 目前 成 熟 的 解决 方 


案 ， 以 及 作者 自己 的 工作 经 验 ， 理 论 联系 实际 ， 踏 实 细致 地 提出 合理 
的 解决 方案 ， 非 常 值得 我 们 学 习 和 借鉴 。 


作者 还 通过 对 淘宝 、Wikipedia、 分 布 式 存储 系统 、 秒 杀 系 统 等 案 
例 的 分 析 ， 仔 细 探 讨 了 典型 互联 网 架构 的 演进 过 程 ， 剖 析 了 分 布 式 系 
统 设计 和 实现 中 的 挑战 和 解决 方案 ， 并 研究 了 极端 情况 下 ， 秒 杀 给 网 
站 带 来 的 难以 预计 的 瞬间 高 并 发 冲击 的 应 对 策略 和 架构 设计 。 还 通过 
一 些 实 实在 在 发 生 过 的 故障 案例 分 析 ， 从 另 一 个 侧面 来 说 明 ， 我 们 在 
做 技术 架构 时 ， 需 要 考量 的 一 些 关键 点 ， 这 些 分 享 都 是 不 可 多 得 的 血 


泪 经 验 。 


本 书 观 点 明确 ， 涉 及 的 问题 域 有 针对 性 和 全 面 性 ， 对 问题 的 分 析 
过 程 清晰 ， 提 出 的 解决 方案 切实 可 行 ， 充 分 结合 了 目前 成 功 的 互联 网 
公司 的 架构 经 验 ， 结 合 了 作者 丰富 的 工作 经 验 ， 是 一 本 值得 行业 内 人 
士 学 习 和 关注 的 好 书 。 


作者 李 智 慧 在 互联 网 行业 具有 丰富 的 经 验 ， 在 阿里 巴巴 工作 的 几 
年 中 担任 架构 师 ， 参 与 过 多 个 重要 的 项 目 和 产品 的 架构 设计 ， 遇 到 和 
处 理 了 很 多 复杂 的 问题 ， 在 这 方面 积累 了 大 量 的 经 验 。 本 书 是 作者 多 
年 的 架构 师 经 历 ， 以 及 时 刻 的 思考 和 积累 的 结晶 ， 一 词 一 句 都 是 经 验 


之 谈 ， 都 是 智慧 的 内 亮 。 


感谢 作者 耗费 精力 给 我 们 带 来 如 此 精炼 而 又 内 容 丰 富 的 一 本 好 
书 。 


支付 宝 资深 架构 师 王 定 乾 


序 
我 为 什么 要 写 这 本 书 


我 想 写 一 本 关于 网 站 架构 方面 的 书 源 起 于 2011 年 年 末 至 2012 年 年 
初 发 生 的 两 件 事 。 


2011 年 末 ， 京 东 网 图 书 促 销 ， 在 打 5 折 的 基础 上 再 满 一 百 送 一 百 ， 
作为 一 个 爱 买 书 胜 过 爱 读书 的 人 ， 我 对 这 种 促销 活动 根本 没有 免疫 
力 ， 于 是 兴致 勃 勃 地 在 活动 当天 登录 www.360buy.com， 准 备 将 收藏 夹 
里 的 图 书 一 网 打 尽 。 


往 购物 车 里 尽情 地 塞 了 一 堆 书 后 ， 点 击 “ 购 买 ” 按 钮 ， 但 是 浏览 
迟 人 迟 没 有 响应 ， 预 感到 京东 的 服务 器 可 能 因为 并 发 访问 量 过 高 ， 超 过 
了 系统 的 最 大 负载 能 力 ， 果 然 过 了 一 会 ， 浏 览 器 页 面 显示 “Service is 
too busy”。 我 不 甘心 ， 返 回 购物 车 页 面 继 续 点 击 “ 购 买 ? 按 钮 ， 浏 览 


继续 显示 “Service is too busy”o 


于 是 我 猜测 : 能 够 正常 访问 购物 车 ， 却 不 能 成 功 购买 ， 问 题 应 该 
是 出 在 订单 系统 ，B2C 网 站 生成 一 个 订单 需要 经 历 扣 减 库存 、 扣 减 促 
销 资源 、 更 新 用 户 账户 等 一 系列 操作 ， 这 些 操作 大 多 是 数据 库 事 务 操 
作 ， 没 有 办 法 通过 缓存 等 手段 来 减轻 效 据 库 服务 器 负载 压力 ， 如 果 事 
前 没有 设计 好 数据 库 伸 缩 性 架构 ， 那 么 京东 的 技术 团队 将 遇 到 一 个 大 
及 烦 。 


当天 晚上 ， 我 登录 新 浪 微 博 ， 看 到 京东 的 大 老板 刘强 东 发 布 了 一 
条 微 博 :“ 我 已 经 紧急 采购 了 10 台 服务 器 ， 增 强 网 站 后 人 台 ， 明 天 继续 促 
销 一 天 ， 一 定 让 大 家 买 到 书 ”。 即 使 在 有 成 熟 数 据 库 伸缩 性 架构 设计 的 
前 提 下 ， 进 行 一 次 数据 库 扩容 也 是 件 来 手 的 事 ， 而 京东 只 需要 一 个 晚 
上 就 能 搞定 ， 让 我 对 京东 的 技术 实力 刮目相看 。 


第 二 天 一 上 班 ， 我 的 第 一 件 事 就 是 登录 www.360buy.com， 点 击 
“购买 ?按钮 后 悲剧 地 发 现 页 面 还 是 “Service is too busy”。 当 天 晚上 ， 刘 
强 东 又 发 布 了 一 条 微 博 :“ 请 信息 部 的 同事 喝 茶 ”。 还 配 了 一 张 照片 : 
一 张大 桌子 ， 只 有 一 杯 茶 ， 旁 边 放 了 一 把 刀 .……… 


我 想 京 东信 息 部 的 同事 绝对 不 是 有 意 要 捉弄 他 们 的 老板 和 客户 ， 
很 可 能 是 他 们 第 误 地 判断 了 系统 的 瓶颈 及 伸缩 性 架构 的 困难 ， 对 老板 
做 出 了 过 度 承 诺 ， 而 这 背后 折射 出 的 是 他 们 对 网 站 架构 的 本 质 缺 乏 了 


解 。 


另 一 件 事 发 生 在 2012 年 年 初 ， 当 时 的 中 国 铁道 部 官方 售票 网 站 
www.12306.cn 在 春运 期 间 因 为 大 量 用 户 访问 而 骨 溃 ， 无 法 有 效 访问 。 
12306 作 为 一 个 运营 不 久 的 网 站 ， 缺 乏 大 规模 并 发 访问 处 理 的 经 验 ， 遇 
到 一 些 问 题 其 实 不 奇怪 ， 不 管 伦 多 少 钱 ， 经 验 教 训 都 需要 经 历时 间 和 
挫折 才能 得 到 。 奇 怪 的 是 ，12306 的 架构 师 似乎 对 这 种 可 能 发 生 的 大 规 
模 并 发 访问 产生 的 问题 完全 没有 一 点 概念 ， 系 统 好 像 根 本 没有 经 过 任 
何 高 并 发 场景 下 的 性 能 评估 和 性 能 测试 ， 就 那么 干脆 利沙 地 骨 溃 了 ， 
趴 在 那里 长 时 间 起 不 来 。 

这 两 件 事情 促使 我 想 写 一 本 关于 网 站 架构 的 书 ， 曾 述 网 站 技术 架 


构 最 基本 的 驱动 力 ， 基 础 的 架构 设计 原理 ， 以 及 架构 方案 选择 的 价值 
观 。 希 望 软件 工程 师 们 在 解决 问题 之 前 ， 能 够 认真 思考 自己 面 对 的 真 


正 问题 究竟 是 什么 ， 有 哪些 技术 方案 可 以 选择 ， 其 基本 原理 是 什么 。 
所 以 这 本 书 里 没有 高 深 的 算法 和 警 牙 庄 屈 的 公式 ， 也 很 少 有 程序 代 
码 。 读 者 可 以 把 本 书 当 作 网 站 架构 设 计 的 科普 书 ， 即 使 对 网 站 架构 疫 
有 什么 了 解 ， 也 能 够 比较 轻松 地 阅读 。 


在 本 书 的 写作 过 程 中 (2012 年 下 半年 ) ， 没 有 再 看 到 京东 促销 宕 
机 的 新 闻 ，12306 也 逐渐 稳定 成 熟 。 我 们 虽然 无 法 猜测 京东 “信息 部 的 
同事 ”和 12306 网 站 的 工程 师 们 付出 了 多 少 努 力 ， 但 能 在 相对 比较 短 的 
时 间 里 解决 这 些 技术 问题 ， 也 说 明了 网 站 架构 其 实 并 不 难 ， 真 正 能 解 
决 问题 的 技术 一 定 是 简单 的 。 


本 书 致力 于 把 这 些 简单 的 技术 和 道理 呈现 给 读者 。 
如 何 阅 读本 书 


我 自己 读书 不 求 甚 解 ， 遇 到 看 不 懂 的 地 方 就 跳 过 去 ， 但 是 希望 作 
者 对 难点 和 重点 能 换个 角度 和 方式 在 后 面 章 节 再 叙述 ， 以 帮助 我 重新 
思考 和 认识 前 面 不 能 理解 的 重要 知识 。 


机 械 制 图 的 时 候 ， 通 单 使 用 三 视图 摘 述 一 个 机 械 零 件 ， 从 正视 、 
侧 视 、 俯 视 三 个 角度 对 一 个 零件 绘图 ， 从 而 全 面 描述 一 个 零件 的 结 
构 。 软 件 架构 设计 中 常用 的 4 十 1 视图 模型 ， 也 是 一 种 多 角度 描述 软件 
系统 设计 的 手段 。 


本 书 中 ， 重 要 的 架构 原理 和 技术 方案 都 采用 多 角度 描述 的 方法 。 
第 1 篇 ， 从 演化 、 模 式 、 要 素 三 个 维度 描述 网 站 整体 架构 。 


第 2 篇 ， 从 性 能 、 可 用 性 、 伸 缩 性 、 扩 展 性 、 安 全 这 五 个 要 素 方面 
详细 换 述 网 站 架构 核心 原理 ， 其 中 重要 的 负载 均衡 、 异 步 处理 、 分 布 


式 缓 存 等 技术 方案 又 在 不 同 章节 从 多 角度 进行 描述 。 


第 3 篇 ， 通 过 几 个 具体 案例 再 一 次 从 整体 和 局 部 描述 网 站 架构 方 
法 。 

第 4 篇 ， 从 架构 师 做 事 的 角度 回顾 网 站 技术 架构 ， 读 者 在 阅读 前 面 
技术 章节 感到 枯燥 的 时 候 ， 也 可 以 跳 到 本 篇 休闲 放松 下 。 


阅读 本 书 过 程 中 有 任何 问题 和 建议 ， 请 联系 作者 。 新 沪 微 博 : @ 
大 型 网 站 技术 架构 。 


致谢 


2012 年 五 一 节 前 夕 ， 当 我 拜访 博文 视点 的 编辑 胡平 征 ， 商 谈 出 版 
一 本 关于 大 型 网 站 技术 架构 的 图 书 时 ， 没 有 想到 自己 面临 的 挑战 是 如 
此 巨大 。 


整个 图 书写 作 过 程 就 像 喝 醉 了 酒 : 头痛 如 裂 ， 有 很 多 话 想 说 ， 但 
又 不 知 该 从 何 说 起 。 


我 很 庆幸 ， 这 个 过 程 有 你 们 陪伴 、 支 持 、 鼓 励 和 帮助 ， 是 你 们 给 
了 我 继续 前 行 的 勇气 。 


感谢 易 普 际 的 培训 顾问 周 腾飞 ， 策 划 并 鼓励 我 去 写 这 本 书 。 


感谢 阿里 巴巴 的 技术 专家 余 俊 和 何 坤 ， 这 本 书 的 大 纲 和 结构 就 是 
和 你 们 在 钱塘 江 昱 散步 时 聊 出 来 的 ， 但 很 遗憾 最 后 没 能 成 功 串 惑 你 们 
和 我 一 起 创作 本 书 。 


感谢 阿里 巴巴 高 级 开发 工程 师 熊 红 亮 、 丁 夏 珍 ; IBM 咨 询 经 理 种 
新 华 、 架 构 师 吴 业 勇 ; 百度 产品 经 理 王 晟 ; Itel 运 维 工程 师 Liu 
Gongmin 给 予 的 建议 和 鼓励 。 


感谢 博文 视点 的 编辑 刘 胶 、 郑 柳 洁 ， 以 及 许多 我 不 知道 名 字 的 编 
辑 为 本 书 最 终 出 版 付出 的 努力 。 


感谢 阿里 巴巴 资深 架构 师 潘 舌 、 王 定 乾 、 钱 雷 、 王 齐 ， 指 引 我 进 
入 网 站 架构 的 知识 殿堂 。 


本 书 很 多 内 容 源 自 阿里 同学 们 的 知识 库 ， 原 谅 我 无 法 一 一 致谢 。 
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第 1 篇 ”概述 


1 大 型 网 站 架构 演化 


如 果 把 上 世纪 90 年 代 初 CERN 正 式 发 布 Web 标 准 和 第 一 个 Web 服 务 
的 出 现 当 做 互联 网 站 的 开始 ， 那 么 互联 网 站 的 发 展 只 经 历 了 短 短 20 多 
年 的 时 间 。 在 20 多 年 的 时 间 里 ， 互 联网 的 世界 发 生 了 巨大 变化 ， 今 
天 ， 全 球 有 近 一 半 的 人 口 使 用 互联 网 ， 人 们 的 生活 因为 互联 网 而 产生 
了 巨大 改变 。 从 信息 检索 到 即时 通信 ， 从 电子 购物 到 文化 娱乐 ， 互 联 
网 渗透 到 生活 的 每 个 角落 ， 而 且 这 种 趋势 还 在 加 速 。 因 为 互联 网 ， 我 
们 的 世界 正 变 得 越 来 越 小 。 


同时 我 们 也 看 到 ， 在 互联 网 跨越 式 发 展 的 进程 中 ， 在 电子 商务 火 
热 的 市 场 背后 却 是 不 堪 重 负 的 网 站 架构 ， 某 些 B2C 网 站 大 促销 必 宕 机 
几乎 成 为 一 种 规律 ， 而 铁道 部 电子 客票 官方 购 票 网 站 的 频繁 故障 和 操 
作 延 迟 更 将 这 一 现象 演绎 得 淋漓 尽 致 。 


一 边 是 企业 在 网 站 技术 上 的 大 量 投 入 ， 一边 却 是 网 站 在 关键 时 刻 
的 频繁 宕 机 ; 一 边 是 工程 师 夜 以 继 日 地 加 班 工作 ， 一 边 却 是 网 站 故障 
频 友 新 功能 上 线 缓慢 ; 一 边 是 互联 网 业务 快速 友 展 多 领域 挑战 传统 行 
业 ， 一 边 却 是 网 站 安全 漏洞 频 发 让 网 民 胆 战 心 惊 怨声载道 。 


如 何 打造 一 个 高 可 用 、 高 性 能 、 易 扩展 、 可 伸缩 且 安 全 的 网 站 ? 
如 何 让 网 站 随 应 用 所 需 灵活 变动 ， 即 使 是 山寨 他 人 的 产品 ， 也 可 以 山 
寨 的 更 高 、 更 快 、 更 强 ， 一 年 时 间 用 户 数 从 零 过 亿 呢 ? 


1.1 大 型 网 站 软件 系统 的 特点 
与 传统 企业 应 用 系统 相 比 ， 大 型 互联 网 应 用 系统 有 以 下 特点 。 


高 并 发 ， 大 流量 : 需要 面 对 高 并 发 用 户 ， 大 流量 访问 。Google 日 
均 PV 数 35 亿 ， 日 均 卫 访问 数 3 亿 ; 腾讯 QQ 的 最 大 在 线 用 户 数 1.4 亿 
(2011 年 数据 ) ; 淘宝 2012 年 * 双 十 一 ”活动 一 天 交易 额 超过 191 亿 ， 活 
动 开始 第 一 分 钟 独立 访问 用 户 达 1000 万 。 


高 可 用 : 系统 7x24 小 时 不 间断 服务 。 大 型 互联 网 站 的 宕 机 事件 通 
单 会 成 为 新 闻 焦 点 ， 例 如 2010 年 百度 域名 被 黑客 劫持 导致 不 能 访问 ， 
成 为 重大 新 闻 热 点 。 


海量 数据 : 需要 存储 、 管 理 海量 数据 ， 需 要 使 用 大 量 服务 器 。 
Facebook 每 周 上 传 的 照片 数目 接近 10 亿 ， 百 度 收录 的 网 页 数目 有 数 百 
亿 ，Google 有 近 百 万 台 服 务 器 为 全 球 用 户 提供 服务 。 


用 户 分 布 广泛 ， 网 络 情况 复杂 : 许多 大 型 互联 网 都 是 为 全 球 用 户 
提供 服务 的 ， 用 户 分 布 范围 广 ， 各 地 网 络 情况 千差万别 。 在 国内 ， 还 
有 各 个 运营 商 网 络 互 通 难 的 问题 。 而 中 美光 线 的 数 次 故障 ， 也 让 一 些 
对 国外 用 户 依 赖 较 大 的 网 站 不 得 不 考虑 在 海外 建立 数据 中 心 。 


安全 环境 恶劣 ; 由 于 互联 网 的 开放 性 ， 使 得 互联 网 站 更 容易 受到 
攻击 ， 大 型 网 站 几乎 每 天 都 会 被 黑客 攻击 。2011 年 国内 多 个 重要 网 站 
泄露 用 户 密码 ， 让 普通 用 户 也 直面 一 次 互联 网 安全 问题 。 


需求 快速 变更 ， 发 布 频繁 : 和 传统 软件 的 版 本 发 布 频率 不 同 ， 互 
联网 产品 为 快速 适应 市 场 ， 满 足 用 户 需 求 ， 其 产品 发 布 频率 是 极 高 


的 。Office 的 产品 版 本 以 年 为 单位 发 布 ， 而 一 般 大 型 网 站 的 产品 每 周 都 
有 新 版 本 发 布 上 线 ， 至 于 中 小 型 网 站 的 发 布 就 更 频繁 了 ， 有 时 候 一 天 
会 发 布 几 十 次 。 


渐进 式 发 展 : 与 传统 软件 产品 或 企业 应 用 系统 一 开始 就 规划 好 全 
部 的 功能 和 非 功能 需求 不 同 ， 几 乎 所 有 的 大 型 互联 网 站 都 是 从 一 个 小 
网 站 开始 ， 渐 进 地 发 展 起 来 的 。Facebook 是 伯 克 扎 克 同 学 在 哈佛 大 学 
的 宿舍 里 开发 的 ; Google 的 第 一 台 服 务 器 部 署 在 斯 坦 福 大 学 的 实验 室 
里 ; 阿里 巴巴 则 是 在 马云 家 的 客厅 里 诞生 的 。 好 的 互联 网 产品 都 是 慢 
慢 运 营 出 来 的 ， 不 是 一 开始 就 开发 好 的 ， 这 也 正好 与 网 站 架构 的 发 展 
演化 过 程 对 应 。 


1.2 ”大 型 网 站 架构 演化 发 展 历 程 


大 型 网 站 的 技术 挑战 主要 来 自 于 庞大 的 用 户 ， 高 并 发 的 访问 和 海 
量 的 数据 ， 任 何 简单 的 业务 一 旦 需要 处 理 数 以 P 计 的 数据 和 面 对 数 以 
亿 计 的 用 户 ， 问 题 束 会 变 得 很 杯 手 。 大 型 网 站 架构 主要 就 是 解决 这 类 


问题 。 
1.2.1 初始 阶段 的 网 站 架构 


大 型 网 站 都 是 从 小 型 网 站 发 展 而 来 ， 网 站 架构 也 是 一 样 ， 是 从 小 
型 网 站 架构 逐步 演化 而 来 。 小 型 网 站 最 开始 时 没有 太 多 人 访问 ， 只 需 
要 一 台 服 务 器 就 绰绰有余 ， 这 时 的 网 站 架构 如 图 1.1 所 示 。 


应 用 服务 履 


图 1.1 初始 阶段 的 网 站 架构 


应 用 程序 、 数 据 库 、 文 件 等 所 有 的 资源 都 在 一 台 服 务 器 上 。 通 党 
服务 器 操作 系统 使 用 Linux， 应 用 程序 使 用 PHP 开 发 ， 然 后 部 署 在 
Apache 上 ， 数 据 库 使 用 MySQL ， 汇 集 各 种 免费 开源 软件 及 一 台 廉 价 服 
务 器 就 可 以 开始 网 站 的 发 展 之 路 了 。 


1.2.2 ”应 用 服务 和 数据 服务 分 离 


随 着 网 站 业务 的 发 展 ， 一 台 服 务 器 逐渐 不 能 满足 需求 : 越 来 越 多 
的 用 户 访问 导致 性 能 越 来 越 差 ， 越 来 越 多 的 数据 导致 存储 空间 不 足 。 
这 时 就 需要 将 应 用 和 数据 分 离 。 应 用 和 数据 分 离 后 整个 网 站 使 用 三 台 
服务 器 : 应 用 服务 器 、 文 件 服务 器 和 数据 库 服务 器 ， 如 图 1.2 所 示 。 这 
三 台 服 务 器 对 硬件 资源 的 要 求 各 不 相同 ， 应 用 服务 器 需要 处 理 大 量 的 
业务 逻辑 ， 因 此 需要 更 快 更 强大 的 CPU; 数据 库 服务 器 需要 快速 磁盘 
多 索 和 数据 缓存 ， 因 此 需要 更 快 的 硬盘 和 更 大 的 内 存 ; 文件 服务 器 需 
要 存储 大 量 用 户 上 传 的 文件 ， 因 此 需要 更 大 的 硬盘 。 


区 件 服务 避 


应 用 服务 器 


图 1.2 ”应 用 服务 和 数据 服务 分 离 


应 用 和 数据 分 离 后 ， 不 同 特性 的 服务 器 承担 不 同 的 服务 角色 ， 网 
站 的 并 发 处 理 能 力 和 数据 存储 空间 得 到 了 很 大 改善 ， 支 持 网 站 业务 进 
一 步 发 展 。 但 是 随 着 用 户 逐 渐 增 多 ， 网 站 又 一 次 面临 挑战 : 数据 库 压 
力 太 大 导致 访问 延迟 ， 进 而 影响 整个 网 站 的 性 能 ， 用 户 体验 受到 影 
响 。 这 时 需要 对 网 站 架构 进一步 优化 。 


1.2.3 ”使 用 缓存 改善 网 站 性 能 


网 站 访问 特点 和 现实 世界 的 财富 分 配 一 样 遵 循 二 八 定律 : 80% 的 
业务 访问 集中 在 20% 的 数据 上 。 淘 宝 买 家 浏览 的 商品 集中 在 少 部 分 成 
交 数 多 、 评 价 良 好 的 商品 上 ; 百度 搜索 关键 词 集中 在 少 部 分 热门 词汇 
上 ; 只 有 经 常 登录 的 用 户 才 会 发 微 博 、 看 微 博 ， 而 这 部 分 用 户 也 只 
总 用 户 数目 的 一 小 部 分 。 


既然 大 部 分 的 业务 访问 集中 在 一 小 部 分 数据 上 ， 那 么 如 果 把 这 一 
小 部 分 数据 缓存 在 内 存 中 ， 是 不 是 就 可 以 减少 数据 库 的 访问 压力 ， 提 
高 整个 网 站 的 数据 访问 速度 ， 改 善 数据 库 的 写 入 性 能 了 呢 ? 


网 站 使 用 的 缓存 可 以 分 为 两 种 : 缓存 在 应 用 服务 器 上 的 本 地 缓存 
和 缓存 在 专门 的 分 布 式 缓存 服务 器 上 的 远程 缓存 。 本 地 缓存 的 访问 速 
度 更 快 一 些 ， 但 是 受 应 用 服务 器 内 存 限制 ， 其 缓存 数据 量 有 限 ， 而 且 
会 出 现 和 应 用 程序 争 用 内 存 的 情况 。 远 程 分 布 式 缓存 可 以 使 用 集群 的 
方式 ， 部 署 大 内 存 的 服务 器 作为 专门 的 缓存 服务 器 ， 可 以 在 理论 上 做 
到 不 受 内 存 容量 限制 的 缓存 服务 ， 如 图 1.3 所 示 。 
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图 1.3 ”网 站 使 用 缓存 


使 用 缓存 后 ， 数 据 访 问 压力 得 到 有 效 缓解 ， 但 是 单一 应 用 服务 器 
能 够 处 理 的 请 求 连 接 有 限 ， 在 网 站 访问 高 峰 期 ， 应 用 服务 器 成 为 整个 
网 站 的 瓶颈 。 


1.2.4 ”使 用 应 用 服务 器 集群 改善 网 站 的 并 发 处 理 能 力 


使 用 集群 是 网 站 解决 高 并 发 、 海 量 数 据 问题 的 常用 手段 。 当 一 台 
服务 器 的 处 理 能 力 、 存 储 空间 不 足 时 ， 不 要 企图 去 换 更 强大 的 服务 
器 ， 对 大 型 网 站 而 言 ， 不 管 多 么 强大 的 服务 器 ， 都 满足 不 了 网 站 持续 


增长 的 业务 需求 。 这 种 情况 下 ， 更 恰当 的 做 法 是 增加 一 台 服 务 器 分 担 
原 有 服务 器 的 访问 及 存储 压力 。 


对 网 站 架构 而 言 ， 只 要 能 通过 增加 一 台 服 务 器 的 方式 改善 负载 压 
力 ， 就 可 以 以 同样 的 方式 持续 增加 服务 器 不 断 改善 系统 性 能 ， 从 而 实 
现 系统 的 可 伸缩 性 。 应 用 服务 器 实现 集群 是 网 站 可 伸缩 集群 架构 设计 
中 较为 简单 成 熟 的 一 种 ， 如 图 1.4 所 示 。 
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图 1.4 ”应 用 服务 器 集群 部 署 


通过 负载 均衡 调度 服务 器 ， 可 将 来 自用 户 浏览 器 的 访问 请 求 分 发 
到 应 用 服务 器 集群 中 的 任何 一 台 服 务 器 上 ， 如 果 有 更 多 的 用 户 ， 就 在 
集群 中 加 入 更 多 的 应 用 服务 器 ， 使 应 用 服务 器 的 负载 压力 不 再 成 为 整 
个 网 站 的 瓶颈 。 


1.2.5 “数据库 读 写 分 离 


网 站 在 使 用 缓存 后 ， 使 绝 大 部 分 数据 读 操作 访问 都 可 以 不 通过 数 
据 库 就 能 完成 ， 但 是 仍 有 一 部 分 读 操作 (缓存 访问 不 命中 、 缓 存 过 
期 ) 和 全 部 的 写 操 作 需 要 访问 数据 库 ， 在 网 站 的 用 户 达 到 一 定 规模 
后 ， 数 据 库 因 为 负载 压力 过 高 而 成 为 网 站 的 瓶颈 。 


目前 大 部 分 的 主流 数据 库 都 提供 主 从 热 备 功能 ， 通 过 配置 两 全 关 
据 库 主 从 关系 ， 可 以 将 一 台数 据 库 服务 器 的 数据 更 新 邮 步 到 另 一 台 服 
务 器 上 。 网 站 利用 数据 库 的 这 一 功能 ， 实 现 数据 库 读 写 分 离 ， 从 而 改 
善 数 据 库 负载 压力 ， 如 图 1.5 所 示 。 
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图 1.5 “数据库 读 写 分 离 


应 用 服务 器 在 写 数据 的 时 候 ， 访 问 主 数 据 库 ， 主 数据 库 通过 主 从 
复制 机 制 将 数据 更 新 同步 到 从 数据 库 ， 这 样 当 应 用 服务 器 读数 据 的 时 
候 ， 就 可 以 通过 从 数据 库 获 得 数据 。 为 了 便于 应 用 程序 访问 读 写 分 离 


后 的 数据 库 ， 通 常 在 应 用 服务 器 端 使 用 专门 的 数据 访问 模块 ， 使 数据 
库 读 写 分 离 对 应 用 透明 。 


1.2.6 ”使 用 反 向 代理 和 CDN 加 速 网 站 响应 


随 着 网 站 业务 不 断 发 展 ， 用 户 规 模 越 来 越 大 ， 由 于 中 国 复杂 的 网 
络 环境 ， 不 同 地 区 的 用 户 访问 网 站 时 ， 速 度 差 别 也 极 大 。 有 研究 表 
明 ， 网 站 访问 延迟 和 用 户 流失 率 正 相关 ， 网 站 访问 越 慢 ， 用 户 越 容 易 
失去 耐心 而 离开 。 为 了 提供 更 好 的 用 户 体 验 ， 留 住 用 户 ， 网 站 需要 加 
速 网 站 访问 速度 。 主 要 手段 有 使 用 CDN 和 反 向 代理 ， 如 图 1.6 所 示 。 
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图 1.6 ”网 站 使 用 反 向 代理 和 CDN 加 速 访问 


CDN 和 反 向 代理 的 基本 原理 都 是 缓存 ， 区 别 在 于 CDN 部 署 在 网 络 
提供 商 的 机 房 ， 使 用 户 在 请 求 网 站 服务 时 ， 可 以 从 距离 自己 最 近 的 网 
络 提供 商机 房 获取 数据 ;而 反 向 代理 则 部 署 在 网 站 的 中 心机 房 ， 当 用 


户 请 求 到 达 中 心机 房 后 ， 首 先 访 问 的 服务 器 是 反 向 代理 服务 器 ， 如 果 
有 反 向 代理 服务 器 中 缓存 着 用 户 请 求 的 资源 ， 束 将 其 直接 返回 给 用 户 。 


使 用 CDN 和 反 向 代理 的 目的 都 是 尽早 返回 数据 给 用 户 ， 一 方面 加 
快 用 户 访问 速度 ， 另 一 方面 也 减轻 后 端 服务 器 的 负载 压力 。 


1.2.7 ”使 用 分 布 式 文件 系统 和 分 布 式 数据 库 系 统 


任何 强大 的 单一 服务 器 都 满足 不 了 大 型 网 站 持续 增长 的 业务 需 
求 。 数 据 库 经 过 读 写 分 离 后 ， 从 一 台 服 务 器 拆 分 成 两 台 服 务 器 ， 但 是 
随 着 网 站 业务 的 发 展 依然 不 能 满足 需求 ， 这 时 需要 使 用 分 布 式 数据 
库 。 文 件 系 统 也 是 一 样 ， 需 要 使 用 分 布 式 文件 系统 ， 如 图 1.7 所 示 。 
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图 1.7 使 用 分 布 式 文件 和 分 布 式 数据 库 系 统 


分 布 式 数据 库 是 网 站 数据 库 拆 分 的 最 后 手段 ， 只 有 在 单 表 数据 规 
模 非 常 庞大 的 时 候 才 使 用 。 不 到 不 得 已 时 ， 网 站 更 弟 用 的 数据 库 拆 分 
手段 是 业务 分 库 ， 将 不 同业 务 的 数据 库 部 署 在 不 同 的 物理 服务 器 上 。 


1.2.8 ”使 用 NoSQL 和 搜索 引擎 


随 着 网 站 业务 越 来 越 复 杂 ， 对 数据 存储 和 检索 的 需求 也 越 来 越 复 
杂 ， 网 站 需要 采用 一 些 非 天 系 效 据 库 技术 如 NoSQL 和 非 效 据 库 查询 近 
术 如 搜索 5 引 和 擎 ， 如 图 1.8 所 示 。 
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图 1.8 ”使 用 NoSQL 系 统 和 搜索 引擎 


4 
搜索 引擎 服务 器 1 


NoSQL 和 搜索 引擎 都 是 源 自 互联 网 的 技术 手段 ， 对 可 伸缩 的 分 布 
式 特性 具有 更 好 的 支持 。 应 用 服务 器 则 通过 一 个 统一 数据 访问 模块 访 
问 各 种 数据 ， 减 轻 应 用 程序 管理 诸多 数据 源 的 麻烦 。 


1.2.9 业务 拆 分 


大 型 网 站 为 了 应 对 日 益 复杂 的 业务 场景 ， 通 过 使 用 分 而 治之 的 手 
将 整个 网 站 业务 分 成 不 同 的 产品 线 ， 如 大 型 购物 交易 网 站 就 会 将 首 
、 商 铺 、 订 单 、 买 家 、 卖 家 等 拆 分 成 不 同 的 产品 线 ， 分 归 不 同 的 业 
负责 。 


搞 当当 
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具体 到 技术 上 ， 也 会 根据 产品 线 划分 ， 将 一 个 网 站 拆 分 成 许多 不 
同 的 应 用 ， 每 个 应 用 独立 部 署 维护 。 应 用 之 间 可 以 通过 一 个 起 链接 建 
立 关系 (在 首页 上 的 导航 链接 每 个 都 指向 不 同 的 应 用 地 址 ) ， 也 可 以 
通过 消息 队列 进行 数据 分 发 ， 当 然 最 多 的 还 是 通过 访问 同一 个 数据 存 
储 系统 来 构成 一 个 关联 的 完整 系统 ， 如 图 1.9 所 示 。 
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图 1.9 ”应 用 拆 分 
1.2.10 ”分 布 式 服务 


随 着 业务 拆 分 越 来 越 小 ， 存 储 系统 越 来 越 庞 大 ， 应 用 系统 的 整体 
复杂 度 呈 指数 级 增加 ， 部 署 维护 越 来 越 困 难 。 由 于 所 有 应 用 要 和 所 有 
数据 库 系 统 连 接 ， 在 数 万 台 服 务 器 规模 的 网 站 中 ， 这 些 连 接 的 数目 是 
服务 器 规模 的 平方 ， 导 致 存 数 据 库 接 资源 不 足 ， 拒 绝 服务 。 


既然 每 一 个 应 用 系统 都 需要 执行 许多 相同 的 业务 操作 ， 比 如 用 户 
管理 、 商 品 管理 等 ， 那 么 可 以 将 这 些 共用 的 业务 提取 出 来 ， 独 立 音 
署 。 由 这 些 可 复 用 的 业务 连接 数据 库 ， 提 供 共用 业务 服务 ， 而 应 用 系 


统 只 需要 管理 用 户 界 面 ， 通 过 分 布 式 服务 调用 共用 业务 服务 完成 具体 
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图 1.10 ”分 布 式 服务 


| 一 
数据 库 


大 型 网 站 的 架构 演化 到 这 里 ， 基 本 上 大 多 数 的 技术 问题 都 得 以 解 
决 ， 诸 如 跨 数 据 中 心 的 实时 数据 同步 和 具体 网 站 业务 相关 的 问题 也 都 
可 以 通过 组 合 改进 现 有 技术 架构 来 解决 。 


但 事物 发 展 到 一 定 阶段 ， 就 会 拥有 自身 的 发 展 冲动 ， 摆 脱 其 初 
囊 ， 向 着 使 自己 更 强大 的 方向 发 展 。 既 然 大 型 网 站 架构 解决 了 海量 数 
据 的 管理 和 高 并 发 事务 的 处 理 ， 那 么 就 可 以 把 这 些 解 决 方案 应 用 到 网 
站 自身 以 外 的 业务 上 去 。 我 们 看 到 目前 许多 大 型 网 站 都 开始 建设 云 计 
算 平台 ， 将 计算 作为 一 种 基础 资源 出 售 ， 中 小 网 站 不 需要 再 关心 技术 
架构 问题 ， 只 需要 按 需 付费 ， 就 可 以 使 网 站 随 着 业务 的 增长 逐渐 获得 
更 大 的 存储 空间 和 更 多 的 计算 资源 。 


1.3 ”大 型 网 站 染 构 演化 的 价值 观 


这 个 世界 没有 哪个 网 站 从 诞生 起 就 是 大 型 网 站 ; 也 没有 哪个 网 站 
第 一 次 发 布 就 拥有 庞大 的 用 户 ， 高 并 发 的 访问 ， 海 量 的 数据 ; 大 型 网 
站 都 是 从 小 型 网 站 发 展 而 来 。 网 站 的 价值 在 于 它 能 为 用 户 提供 什么 价 
值 ， 在 于 网 站 能 做 什么 ， 而 不 在 于 它 是 怎么 做 的 ， 所 以 在 网 站 还 很 小 
的 时 候 就 去 追求 网 站 的 架构 是 舍 本 逐 末 ， 得 不 偿 失 的 。 小 型 网 站 最 需 
要 做 的 就 是 为 用 户 提供 好 的 服务 来 创造 价值 ， 得 到 用 户 的 认可 ， 活 下 
去 ， 野 变 生 长 。 


所 以 我 们 看 到 ， 一 方面 是 随 着 互联 网 的 高 速 发 展 ， 越 来 越 多 新 的 
软件 技术 和 产品 从 互联 网 公司 诞生 ， 挑 战 传统 软件 巨头 的 江湖 地 位 。 
另 一 方面 却 是 中 小 网 站 十 几 年 如 一 日 地 使 用 LAMP 技 术 (Linux 十 
Apache 十 MySQL 十 PHP) 开发 自己 的 网 站 ， 因 为 LAMP 既 便宜 又 简 
单 ， 而 且 对 付 一 个 中 小 型 网 站 绰绰有余 。 


1.3.1 大 型 网 站 架构 技术 的 核心 价值 是 随 网 站 所 需 灵活 应 对 


大 型 网 站 架构 技术 的 核心 价值 不 是 从 无 到 有 搭建 一 个 大 型 网 站 ， 
而 是 能 够 伴随 小 型 网 站 业务 的 逐步 发 展 ， 慢 慢 地 演化 成 一 个 大 型 网 
站 。 在 这 个 漫长 的 技术 演化 过 程 中 ， 不 需要 放弃 什么 ， 不 需要 推翻 什 
么 ， 不 需要 剧烈 的 革命 ， 就 那么 润 物 细 无 声 地 把 一 个 只 有 一 台 服 务 
器 ， 几 百 个 用 户 的 小 网 站 演化 成 一 个 几 十 万 台 服 务 器 ， 数 十 亿 用 户 的 
大 网 站 。 今 天 我 们 看 到 的 大 型 网 站 ，Google，Facebook，Taobao， 
Baidu 莫 不 遵循 这 样 的 技术 演化 路 线 。 


1.3.2 ”驱动 大 型 网 站 技术 发 展 的 主要 力量 是 网 站 的 业务 发 展 


创新 的 业务 发 展 模式 对 网 站 架构 逐步 提出 更 高 要 求 ， 才 使 得 创新 
的 网 站 架构 得 以 友 展 成 熟 。 是 业务 成 藉 了 技术 ， 是 事业 成 藉 了 人 ， 而 
不 是 相反 。 所 以 网 站 架构 师 应 该 对 成 就 自己 技术 成 绩 的 网 站 事业 心 存 
感恩 ， 并 努力 提高 拷 术 回馈 业务 ， 才 能 在 快速 发 展 的 互联 网 领域 保持 
持续 进步 。 


不 过 我 们 也 看 到 有 些 传统 企业 投身 互联 网 ， 在 业务 问题 还 没有 理 
清楚 的 时 候 就 从 外 面 挖 来 许多 技术 高 手 ， 仿 照 成 功 的 互联 网 公司 打造 
技术 平台 ， 这 无 疑 是 南 辕 北 辐 ， 缘 木 求 鱼 。 而 这 些 技术 高 手 离开 了 它 
们 熟悉 的 环境 和 工作 模式 ， 也 是 张 飞 拿 着 绣花 针 使 不 上 劲 来 。 


1.4 网 站 架构 设计 误区 
在 大 型 网 站 架构 发 展 过 程 中 有 如 下 几 个 容易 出 现 的 误区 。 
1.4.1 “一味 追随 大 公司 的 解决 方案 


由 于 大 公司 巨大 成 功 的 光环 效应 ， 再 加 上 从 大 公司 挖 来 的 技术 高 
手 的 影响 ， 网 站 在 讨论 架构 决策 时 ， 最 有 说 服 力 的 一 句 话 就 成 了 “淘宝 
就 是 这 么 搞 的 ”或 者 “Facebook 就 是 这 么 搞 的 ”。 


大 公司 的 经 验 和 成 功 模式 固然 重要 ， 值 得 学 习 借鉴 ， 但 如 果 因此 
而 变 得 盲从 ， 就 失去 了 坚持 自我 的 勇气 ， 在 染 构 演化 的 道路 上 述 早 会 
迷路 。 


1.4.2 为 了 技术 而 技术 


网 站 技术 是 为 业务 而 存在 的 ， 除 此 毫 无 意义 。 在 技术 选 型 和 架构 
设计 中 ， 脱 离 网 站 业务 发 展 的 实际 ， 一 味 追 求 时 艇 的 新 技术 ， 可 能 会 
将 网 站 技术 发 展 引 入 崎 由 小 道 ， 架 构 之 路 越 走 越 难 。 


1.4.3 ”企图 用 技术 解决 所 有 问题 


最 典型 的 例子 就 是 2012 年 年 初 12306 故 障 事件 后 ， 软 件 开发 技术 界 
的 反应 。 


各 路 专业 和 非 专业 人 士 众说 纷 经 地 帮 12306 的 技术 架构 出 谋划 策 ， 
甚至 有 人 提议 帮 12306 写 一 个 开源 的 网 站 ， 解 决 其 大 规模 并 发 访问 的 问 


题 。 


12306 真 正 的 问题 其 实 不 在 于 它 的 技术 架构 ， 而 在 于 它 的 业务 架 
构 : 12306 根 本 就 不 应 该 在 几 亿 中 国人 一 票 难 求 的 情况 下 以 窗口 售票 的 
模式 在 网 上 售票 (零点 开始 出 售 若干 天 后 的 车 票 ) 。12306 需 要 重 构 的 
不 仅 是 它 的 技术 架构 ， 更 重要 的 是 它 的 业务 架构 : 调整 业务 需求 ， 换 
一 种 方式 卖 票 ， 而 不 要 去 搞 促 销 秒 杀 这 种 嗪 头 式 的 游戏 。 


后 来 证 明 12306 确 实 是 朝 这 个 方向 发 展 的 : 在 售票 方式 上 引入 了 排 
队 机 制 、 整 点 售票 调整 为 分 时 段 售票 。 其 实 如 果 能 控制 住 并 发 访问 的 
量 , 很 多 来 手 的 技术 问题 也 就 不 是 什么 问题 了 。 


技术 是 用 来 解决 业务 问题 的 ， 而 业务 的 问题 ， 也 可 以 通过 业务 的 
手段 去 解决 。 


1.5 小结 


时 至 今日 ， 大 型 网 站 的 架构 演化 方案 已 经 非常 成 熟 ， 各 种 技术 方 
案 也 逐渐 产品 化 。 许 多 小 型 网 站 已 经 慢 慢 不 需要 再 经 历 大 型 网 站 经 历 
过 的 絮 构 壮 化 之 路 融 可 以 逐步 发 展 壮大 ， 因 为 现在 越 来 越 多 的 网 站 从 
建立 之 初 束 是 搭建 在 大 型 网 站 提供 的 云 计 算 服务 基础 之 上 ， 所 需要 的 
一 切 技术 资源 : 计算 、 存 储 、 网 络 都 可 以 按 需 购买 ， 线 性 伸缩 ， 不 需 
要 自己 一 点 一 点 地 拼凑 各 种 资源 ， 综 合 使 用 各 种 技术 方案 逐步 去 完善 
自己 的 网 站 架构 了 。 


所 以 能 亲身 经 历 一 个 网 站 从 小 到 大 的 架构 演化 过 程 的 网 站 架构 师 
越 来 越 少 ， 虽 然 过 去 有 这 种 经 历 的 架构 师 也 很 少 (从 小 型 网 站 发 展 成 
大 型 网 站 的 机 会 本 来 就 极 少 ) ， 但 是 将 来 可 能 真 就 没有 了 。 


2 ”大 型 网 站 案 构 模式 


关于 什么 是 模式 ， 这 个 来 自 建筑 学 的 词汇 是 这 样 定义 的 : “每 一 个 
模式 描述 了 一 个 在 我 们 周围 不 断 重复 发 生 的 问题 及 该 问题 解决 方案 的 
核心 。 这 样 ， 你 就 能 一 次 又 一 次 地 使 用 该 方案 而 不 必 做 重复 工作 ”。 
模式 的 关键 在 于 模式 的 可 重复 性 ， 问 题 与 场景 的 可 重复 性 带 来 解决 方 
案 的 可 重复 使 用 。 


我 们 的 现实 生活 中 充斥 着 几乎 干 篇 一 律 的 人 生 架 构 模 
式 : 读 重 点 学 校 ， 选 热门 专业 ， 进 稳定 高 收入 的 政府 部 门 和 
企业 ， 找 门当户对 的 配偶 ， 生 一 个 听话 的 孩子 继续 这 个 模 
式 .……. 但 是 和 人生 不 同 于 软件 ， 精 彩 的 人 生 绝 不 会 来 自 于 复 
制 。 


也 许 互联 网 产品 不 是 随便 复制 就 能 成 功 的 ， 创 新 的 产品 更 能 为 用 
户 创造 价值 。 但 是 网 站 架构 却 有 一 些 共同 的 模式 ， 这 些 模式 已 经 被 许 
多 大 型 网 站 一 再 验证 ， 通 过 对 这 些 模式 的 学 习 ， 我 们 可 以 掌握 大 型 网 
站 架构 的 一 般 思 路 和 解决 方案 ， 以 指导 我 们 的 架构 设计 。 


2.1 网 站 架构 模式 


为 了 解决 大 型 网 站 面临 的 高 并 发 访问 、 海 量 效 据 处 理 、 高 可 靠 运 
行 等 一 系列 问题 与 挑战 ， 大 型 互联 网 公司 在 实践 中 提出 了 许多 解决 方 
案 ， 以 实现 网 站 高 性 能 、 高 可 用 、 易 伸缩 、 可 扩展 、 安 全 等 各 种 技术 
架构 目标 。 这 些 解 决 方案 又 被 更 多 网 站 重复 使 用 ， 从 而 逐渐 形成 大 型 
网 站 染 构 模式 。 


2.1.1 分 层 


分 层 是 企业 应 用 系统 中 最 常见 的 一 种 架构 模式 ， 将 系统 在 横向 维 
度 上 切 分 成 几 个 部 分 ， 每 个 部 分 负责 一 部 分 相对 比较 单一 的 职责 ， 然 
后 通过 上 层 对 下 层 的 依赖 和 调用 组 成 一 个 完整 的 系统 。 


分 层 结构 在 计算 机 世界 中 无 处 不 在 ， 网 络 的 7 层 通 信 协 议 是 一 种 分 
层 结构 ， 计 算 机 硬件 、 操 作 系统 、 应 用 软件 也 可 以 看 作 是 一 种 分 层 结 
构 。 在 大 型 网 站 架构 中 也 采用 分 层 结构 ， 将 网 站 软件 系统 分 为 应 用 
层 、 服 务 层 、 数 据 层 ， 如 表 2.1 所 示 。 


表 2.1 网 站 分 层 架构 


负责 具体 业务 和 视图 展示 ， 如 网 站 首页 及 搜索 输入 和 结果 展示 


为 应 用 层 提供 服务 支持 ， 如 用 户 管理 服务 ， 购 物 车 服务 等 
人生 


通过 分 层 ， 可 以 更 好 地 将 一 个 庞大 的 软件 系统 切 分 成 不 同 的 部 
分 ， 便 于 分 工 合 作 开发 和 维护 ; 各 层 之 间 具 有 一 定 的 独立 性 ， 只 要 维 
持 调用 接口 不 变 ， 各 层 可 以 根据 具体 问题 独立 演化 发 展 而 不 需要 其 他 
层 必 须 做 出 相应 调整 。 


但 是 分 层 以 构 也 有 一 坚 挑战 ， 融 是 必须 合理 规划 层次 边界 和 接 
口 ， 在 开发 过 程 中 ， 严 格 遵 循 分 层 染 构 的 约束 ， 禁 止 跨 层次 的 调用 
(应 用 层 直 接 调 用 数据 层 ) 及 逆向 调用 (数据 层 调用 服务 层 ， 或 者 服 
务 层 调用 应 用 层 ) 。 


在 实践 中 ， 大 的 分 层 结构 内 部 还 可 以 继续 分 层 ， 如 应 用 层 可 以 再 
细 分 为 视图 层 (美工 负责 ) 和 业务 逻辑 层 (工程 师 负责 ) ; 服务 层 也 
可 以 细 分 为 数据 接口 层 ( 适 配 各 种 输入 和 输出 的 数据 格式 ) 和 逻辑 处 
理 层 。 


分 层 架 构 是 逻辑 上 的 ， 在 物理 部 署 上 ， 三 层 结构 可 以 部 署 在 同一 
个 物理 机 器 上 ， 但 是 随 着 网 站 业务 的 发 展 ， 必 然 需要 对 已 经 分 层 的 模 
块 分 离 部 署 ， 即 三 层 结 构 分 别 部 署 在 不 同 的 服务 器 上 ， 使 网 站 拥有 更 
多 的 计算 资源 以 应 对 越 来 越 多 的 用 户 访问 。 


所 以 虽然 分 层 染 构 模 式 最 初 的 目的 是 规划 软件 清晰 的 人 逻辑 结构 便 
于 开发 维护 ， 但 在 网 站 的 发 展 过 程 中 ， 分 层 结 构 对 网 站 支持 高 并 发 向 
分 布 式 方向 发 展 至 天 重要 。 因 此 在 网 站 规模 还 很 小 的 时 候 就 应 该 采用 
分 层 的 架构 ， 这 样 将 来 网 站 做 大 时 才能 有 更 好 地 应 对 。 


2.1.2 “分割 


如 果 说 分 层 是 将 软件 在 横向 方面 进行 切 分 ， 那 么 分 割 就 是 在 纵向 
方面 对 软件 进行 切 分 。 


网 站 越 大 ， 功 能 越 复杂 ， 服 务 和 数据 处 理 的 种 类 也 越 多 ， 将 这 些 
不 同 的 功能 和 服务 分 割 开 来 ， 包 装 成 高 内 聚 低 耦 合 的 模块 单元 ， 一 方 
面 有 助 于 软件 的 开发 和 维护 ， 另 一 方面 ， 便 于 不 同 模块 的 分 布 式 部 
署 ， 提 高 网 站 的 并 发 处 理 能 力 和 功能 扩展 能 力 。 


大 型 网 站 分 割 的 粒度 可 能 会 很 小 。 比 如 在 应 用 层 ， 将 不 同业 务 进 
行 分 割 ， 例 如 将 购物 、 论 坛 、 搜 索 、 广 告 分 割 成 不 同 的 应 用 ， 由 独立 
的 团队 负责 ， 部 署 在 不 同 的 服务 器 上 ; 在 同一 个 应 用 内 部 ， 如 果 规 模 
庞大 业务 复杂 ， 会 继续 进行 分 割 ， 比 如 购物 业务 ， 可 以 进一步 分 割 成 
机 票 酒 店 业务 、3C 业 务 ， 小 商品 业务 等 更 细小 的 粒度 。 而 即使 在 这 个 
粒度 上 ， 还 是 可 以 继续 分 割 成 首页 、 搜 索 列表 、 商 品 详情 等 模块 ， 这 
些 模 块 不 管 在 逻辑 上 还 是 物理 部 署 上 ， 都 可 以 是 独立 的 。 同 样 在 服务 
层 也 可 以 根据 需要 将 服务 分 割 成 合适 的 模块 。 


2.1.3 ”分 布 式 


对 于 大 型 网 站 ， 分 层 和 分 割 的 一 个 主要 目的 是 为 了 切 分 后 的 模块 
便于 分 布 式 部 署 ， 即 将 不 同 模块 部 署 在 不 同 的 服务 器 上 ， 通 过 远程 调 
用 协同 工作 。 分 布 式 意味 着 可 以 使 用 更 多 的 计算 机 完成 同样 的 功能 ， 
计算 机 越 多 ，CPU、 内 存 、 存 储 资源 也 就 越 多 ， 能 够 处 理 的 并 发 访问 
和 数据 量 就 越 大 ， 进 而 能 够 为 更 多 的 用 户 提 供 服务 。 


但 分 布 式 在 解决 网 站 高 并 发 问题 的 同时 也 读 来 了 其 他 问题 。 首 
先 ， 分 布 式 意味 着 服务 调用 必须 通过 网 络 ， 这 可 能 会 对 性 能 造成 比较 
严重 的 影响 ， 其 次 ， 服 务 器 越 多 ， 服 务 器 宕 机 的 概率 也 就 越 大 ， 一 台 
服务 器 宕 机 造成 的 服务 不 可 用 可 能 会 导致 很 多 应 用 不 可 访问 ,使 网 站 
可 用 性 降低 ; 另外 ， 数 据 在 分 布 式 的 环境 中 保持 数据 一 致 性 也 非常 困 
难 ， 分 布 式 事务 也 难以 保证 ， 这 对 网 站 业务 正确 性 和 业务 流程 有 可 能 
造成 很 大 影响 ;分 布 式 还 导致 网 站 依赖 错综复杂 ， 开 发 管理 维护 困 
难 。 因 此 分 布 式 设计 要 根据 具体 情况 量力 而 行 ， 切 莫 为 了 分 布 式 而 分 
布 式 。 


在 网 站 应 用 中 ， 常 用 的 分 布 式 方案 有 以 下 几 种 。 


分 布 式 应 用 和 服务 : 将 分 层 和 分 割 后 的 应 用 和 服务 模块 分 布 式 部 
署 ， 除 了 可 以 改善 网 站 性 能 和 并 发 性 、 加 快 开 发 和 发 布 速度 、 减 少数 
据 库 连接 资源 消耗 外 ; 还 可 以 使 不 同 应 用 复 用 共同 的 服务 ， 便 于 业务 
功能 扩展 。 


分 布 式 静态 资源 : 网 站 的 静态 资源 如 JS，CSS，Logo 图 片 等 资源 
独立 分 布 式 部 署 ， 并 采用 独立 的 域名 ， 即 人 们 常 说 的 动静 分 离 。 静 态 
资源 分 布 式 部 署 可 以 减轻 应 用 服务 器 的 负载 压力 ; 通过 使 用 独立 域名 
加 快 浏览 器 并 发 加 载 的 速度 ; 由 负责 用 户 体验 的 团队 进行 开发 维护 有 
利于 网 站 分 工 合作 ， 使 不 同 技术 工种 术 业 有 专攻 。 


分 布 式 数据 和 存储 : 大 型 网 站 需要 处 理 以 P 为 单位 的 海量 数据 ， 

台 计 算 机 无 法 提供 如 此 大 的 存储 空间 ， 这 些 数据 需要 分 布 式 存 储 。 
除了 对 传统 的 关系 数据 库 进行 分 布 式 部 署 外 ， 为 网 站 应 用 而 生 的 各 种 
NoSQL 产 品 几乎 都 是 分 布 式 的 。 


分 布 式 计算 : 严格 说 来 ， 应 用 、 服 务 、 实 时 数据 处 理 都 是 计算 ， 
网 站 除了 要 处 理 这 些 在 线 业 务 ， 还 有 很 大 一 部 分 用 户 没 有 直观 感受 的 
后 台 业 务 要 处 理 ， 包 括 搜索 引擎 的 索引 构建 、 数 据 仓库 的 数据 分 析 统 
计 等 。 这 些 业 务 的 计算 规模 非常 庞大 ， 目 前 网 站 普遍 使 用 Hadoop 及 其 
MapReduce 分 布 式 计算 框架 进行 此 类 批 处 理 计 算 ， 其 特点 是 移动 计算 
而 不 是 移动 数据 ， 将 计算 程序 分 发 到 数据 所 在 的 位 置 以 加 速 计算 和 分 
布 式 计算 。 


此 外 ， 还 有 可 以 支持 网 站 线 上 服务 器 配置 实时 更 新 的 分 布 式 配 
置 ; 分 布 式 环境 下 实现 并 发 和 协同 的 分 布 式 锁 ; 支持 云 存储 的 分 布 式 
文件 系统 等 。 


2.1.4 ”集群 


使 用 分 布 式 虽 然 已 经 将 分 层 和 分 割 后 的 模块 独立 部 署 ， 但 是 对 于 
用 户 访问 集中 的 模块 〈 比 如 网 站 的 首页 ) ， 还 需要 将 独立 部 署 的 服务 
器 集群 化 ， 即 多 人 台 服 务 器 部 署 相 同 应 用 构成 一 个 集群 ， 通 过 负载 均衡 
设备 共同 对 外 提供 服务 。 


因为 服务 器 集群 有 更 多 服务 器 提供 相同 服务 ， 因 此 可 以 提供 更 好 
的 并 发 特性 ， 当 有 更 多 用 户 访问 的 时 候 ， 只 需要 向 集群 中 加 入 新 的 机 
器 即 可 。 同 时 因为 一 个 应 用 由 多 人 台 服 务 器 提供 ， 当 某 台 服务 器 发 生 故 
障 时 ， 负 载 均衡 设备 或 者 系统 的 失效 转移 机 制 会 将 请 求 转发 到 集群 中 
其 他 服务 器 上 ， 使 服务 器 故障 不 影响 用 户 使 用 。 所 以 在 网 站 应 用 中 ， 
即使 是 访问 量 很 小 的 分 布 式 应 用 和 服务 ， 也 至 少 要 部 署 两 台 服 务 器 构 
成 一 个 小 的 集群 ， 目 的 就 是 提高 系统 的 可 用 性 。 


2.1.5 ”缓存 


缓存 就 是 将 数据 存放 在 距离 计算 最 近 的 位 置 以 加 快 处 理 速度 。 缓 
存 是 改善 软件 性 能 的 第 一 手段 ， 现 代 CPU 越 来 越 快 的 一 个 重要 因素 就 
是 使 用 了 更 多 的 缓存 ， 在 复杂 的 软件 设计 中 ， 缓 存 几乎 无 处 不 在 。 大 
型 网 站 架构 设计 在 很 多 方面 都 使 用 了 缓存 设计 。 


CDN: 即 内 容 分 发 网 络 ， 部 署 在 距离 终端 用 户 最 近 的 网 络 服务 
商 ， 用 户 的 网 络 请 求 总 是 先 到 达 他 的 网 络 服务 商 那里 ， 在 这 里 缓存 网 
站 的 一 些 静 态 资源 〈 较 少 变化 的 数据 ) ， 可 以 就 近 以 最 快速 度 返 回 给 
用 户 ， 如 视频 网 站 和 门户 网 站 会 将 用 户 访问 量 大 的 热点 内 容 缓存 在 
CDN。 


反 向 代理 : 反 向 代理 属于 网 站 前 端 架构 的 一 部 分 ， 部 署 在 网 站 的 
前 端 ， 当 用 户 请 求 到 达 网 站 的 数据 中 心 时 ， 最 先 访问 到 的 就 是 反 向 代 
理 服务 器 ， 这 里 缓存 网 站 的 静态 资源 ， 无 需 将 请 求 继续 转发 给 应 用 服 
务 器 束 能 返回 给 用 户 。 


本 地 缓存 : 在 应 用 服务 器 本 地 缓存 着 热点 数据 ， 应 用 程序 可 以 在 
本 机 内 存 中 直接 访问 数据 ， 而 无 需 访 问 数据 库 。 


分 布 式 缓存 : 大 型 网 站 的 数据 量 非 常 庞大 ， 即 使 只 缓存 一 小 部 
分 ， 需 要 的 内 存 空间 也 不 是 单机 能 承受 的 ， 所 以 除了 本 地 缓存 ， 还 需 
要 分 布 式 缓存 ， 将 数据 缓存 在 一 个 专门 的 分 布 式 缓存 集群 中 ， 应 用 程 
序 通过 网 络 通信 访问 缓存 数据 。 


使 用 缓存 有 两 个 前 提 条 件 ， 一 是 数据 访问 热点 不 均衡 ， 某 些 数据 
会 被 更 频繁 的 访问 ， 这 些 数 据 应 该 放 在 缓存 中 ; 二 是 数据 在 某 个 时 间 
段 内 有 效 ， 不 会 很 快 过 期 ， 否 则 缓存 的 效 据 融会 因 已 经 失效 而 产生 及 
读 ， 影 响 结果 的 正确 性 。 网 站 应 用 中 ， 缓 存 除 了 可 以 加 快 数 据 访 问 速 
度 ， 还 可 以 减轻 后 端 应 用 和 数据 存储 的 负载 压力 ， 这 一 点 对 网 站 数据 
库 染 构 至 关 重 要 ， 网 站 数据 库 几 乎 都 是 按照 有 缓存 的 前 提 进 行 负载 能 
力 设计 的 。 


2.1.6 ”异步 


计算 机 软件 发 展 的 一 个 重要 目标 和 驱动 力 是 降低 软件 耦合 性 。 事 
物 之 间 直 接 天 系 越 少 ， 融 越 少 家 彼此 影响 ， 越 可 以 独立 发 展 。 大 型 网 
站 架构 中 ， 系 统 解 耦合 的 手段 除了 前 面 提 到 的 分 层 、 分 割 、 分 布 等 ， 
还 有 一 个 重要 手段 是 异步 ， 业 务 之 间 的 消息 传递 不 是 同步 调用 ， 而 是 


将 一 个 业务 操作 分 成 多 个 阶段 ， 每 个 阶段 之 间 通 过 共享 数据 的 方式 异 
步 执 行进 行 协作 。 


在 单一 服务 器 内 部 可 通过 多 线程 共享 内 存 队 列 的 方式 实现 异步 ， 
处 在 业务 操作 前 面 的 线程 将 输出 写 入 到 队列 ， 后 面 的 线程 从 队列 中 读 
取 数 据 进 行 处 理 ， 在 分 布 式 系统 中 ， 多 个 服务 器 集群 通过 分 布 式 消息 
队列 实现 异步 ， 分 布 式 消息 队列 可 以 看 作 内 存 队 列 的 分 布 式 部 署 。 


异步 染 构 是 典型 的 生产 者 消费 者 模式 ， 两 者 不 存在 直接 调用 ， 只 
要 保持 数据 结构 不 变 ， 彼 此 功能 实现 可 以 随意 变化 而 不 互相 影响 ， 这 
对 网 站 扩展 新 功能 非常 便利 。 除 此 之 外 ， 使 用 异步 消息 队列 还 有 如 下 
特性 。 


提高 系统 可 用 性 。 消费 者 服务 器 发 生 故 障 ， 数 据 会 在 消息 队列 服 
务 器 中 存储 堆积 ， 生 产 者 服务 器 可 以 继续 处 理 业 务 请 求 ， 系 统 整体 表 
现 无 故障 。 消 费 者 服务 器 恢复 正常 后 ， 继 续 处 理 消 息 队 列 中 的 数据 。 


加 快 网 站 响应 速度 。 处 在 业务 处 理 前 端的 生产 者 服务 器 在 处 理 完 
业务 请 求 后 ， 将 数据 写 入 消息 队列 ， 不 需要 等 待 消费 者 服务 器 处 理 就 
可 以 返回 ， 响 应 延迟 减少 。 


消除 并 发 访问 高 峰 。 用 户 访问 网 站 是 随机 的 ， 存 在 访问 高 峰 和 低 
合 ， 即 使 网 站 按照 一 般 访 问 高 峰 进行 规划 和 部 署 ， 也 依然 会 出 现 突 发 
事件 ， 比 如 购物 网 站 的 促销 活动 ， 微 博 上 的 热点 事件 ， 都 会 造成 网 站 
并 发 访问 突然 增 大 ， 这 可 能 会 造成 整个 网 站 负载 过 重 ， 响 应 延迟 ， 严 
重 时 甚至 会 出 现 服 务 宕 机 的 情况 。 使 用 消息 队列 将 突然 增加 的 访问 请 
求 数据 放 入 消息 队列 中 ， 等 待 消费 者 服务 器 依次 处 理 ， 就 不 会 对 整个 
网 站 负载 造成 太 大 压力 。 


但 需要 注意 的 是 ， 使 用 异步 方式 处 理 业务 可 能 会 对 用 户 体验 、 业 
务 流程 造成 影响 ， 需 要 网 站 产品 设计 方面 的 支持 。 


2.1.7 ” 宛 余 


网 站 需要 7724 小 时 连续 运行 ， 但 是 服务 器 随时 可 能 出 现 故障 ， 特 
别 是 服务 器 规模 比较 大 时 ， 出 现 某 人 台 服 务 器 宕 机 是 必然 事件 。 要 想 保 
证 在 服务 器 宕 机 的 情况 下 网 站 依然 可 以 继续 服务 ， 不 丢失 数据 ， 就 需 
要 一 定 程 度 的 服务 器 风 余 运行 ， 数 据 风 余 备 份 ， 这 样 当 某 人 台 服 务 器 宕 
机 时 ， 可 以 将 其 上 的 服务 和 数据 访问 转移 到 其 他 机 器 上 。 


访问 和 负载 很 小 的 服务 也 必须 部 署 至 少 两 台 服 务 器 构成 一 个 集 
群 ， 其 目的 就 是 通过 宛 余 实现 服务 高 可 用 。 数 据 库 除 了 定期 备份 ， 存 
档 保存 ， 实 现 冷 备份 外， 为 了 保证 在 线 业 务 高 可 用 ， 还 需要 对 数据 库 
进行 主 从 分 离 ， 实 时 同步 实现 热 备份 。 


为 了 抵御 地 震 、 海 啸 等 不 可 抗力 导致 的 网 站 完全 闪 病 ， 某 些 大 型 
网 站 会 对 整个 数据 中 心 进行 备份 ， 全 球 范 围 内 部 署 灾 备 数据 中 心 。 网 
站 程序 和 数据 实时 同步 到 多 个 灾 备 数据 中 心 。 


2.1.8 ”自动 化 


在 无 人 值守 的 情况 下 网 站 可 以 正常 运行 ， 一 切 都 可 以 目 动 化 是 网 
站 的 理想 状态 。 目 前 大 型 网 站 的 自动 化 架构 设计 主要 集中 在 发 布 运 维 
方面 。 


发 布 对 网 站 都 是 头等 大 事 ， 许 多 网 站 故障 出 在 发 布 环节 ， 网 站 工 
程 师 经 常 加 班 也 是 因为 发 布 不 顺利 。 通 过 减少 人 为 干预 ， 使 发 布 过 程 
自动 化 可 有 效 减少 故障 。 发 布 过 程 包括 诸多 环节 。 自 动 化 代码 管理 ， 


代码 版 本 控制 、 代 码 分 支 创 建 合 并 等 过 程 自动 化 ， 开 发 工程 师 只 要 提 
交 自 己 参 与 开发 的 产品 代号 ， 系 统 就 会 自动 为 其 创建 开发 分 支 ， 后 期 
会 自动 进行 代码 合并 ; 自动 化 测试 ， 代 码 开发 完成 ， 提 交 测 试 后 ， 系 
统 自动 将 代码 部 署 到 测试 环境 ， 启 动 自动 化 测试 用 例 进行 测试 ， 向 相 
关 人 员 发 送 测 试 报告 ， 向 系统 反馈 测试 结果 ;自动 化 安全 检测 ， 安 全 
检测 工具 通过 对 代码 进行 静态 安全 扫描 及 部 署 到 安全 测试 环境 进行 安 
全 攻击 测试 ， 评 估 其 安全 性 ， 最 后 进行 自动 化 部 署 ， 将 工程 代码 自动 
部 署 到 线 上 生产 环境 。 


此 外 ， 网 站 在 运行 过 程 中 可 能 会 遇 到 各 种 问题 : 服务 器 宕 机 、 程 
序 Bug、 存 储 空间 不 足 、 突 然 爆 发 的 访问 高 峰 。 网 站 需要 对 线 上 生产 
环境 进行 自动 化 监控 ， 对 服务 器 进行 心跳 检测 ， 并 监控 其 各 项 性 能 指 
标 和 应 用 程序 的 天 键 数 据 指标 。 如 果 发 现 异 单 、 超 出 预 设 的 阔 值 ， 就 
进行 自动 化 报警 ， 向 相关 人 员 发送 报 和 警 信息 ， 和 警告 故 障 可 能 会 发 生 。 
在 检测 到 故障 发 生 后 ， 系 统 会 进行 自动 化 失效 转移 ， 将 失效 的 服务 器 
从 集群 中 隔离 出 去 ， 不 再 处 理 系统 中 的 应 用 请 求 。 待 故障 消除 后 ， 系 
统 进行 自动 化 失效 恢复 ， 重 新 启动 服务 ， 同 步 数据 保证 数据 的 一 致 
性 。 在 网 站 遇 到 访问 高 峰 ， 超 出 网 站 最 大 处 理 能 力 时 ， 为 了 保证 整个 
网 站 的 安全 可 用 ， 还 会 进行 自动 化 降级 ， 通 过 拒绝 部 分 请 求 及 关闭 部 
分 不 重要 的 服务 将 系统 负载 降 至 一 个 安全 的 水 平 ， 必 要 时 ， 还 需要 自 
动 化 分 配 资源 ， 将 空闲 资源 分 配给 重要 的 服务 ， 扩 大 其 部 署 规模 。 


2.1.9 ”安全 


互联 网 的 开放 特性 使 得 其 从 诞生 起 就 面 对 巨 大 的 安全 挑战 ， 网 站 
在 安全 架构 方面 也 积累 了 许多 模式 : 通过 密码 和 手机 校 验 码 进行 身份 
认证 ; 登录 、 交 易 等 操作 需要 对 网 络 通信 进行 加 密 ， 网 站 服务 器 上 存 


储 的 敏感 数据 如 用 户 信 息 等 也 进行 加 密 处 理 ; 为 了 防止 机 器 人 程序 小 
用 网 络 资源 攻击 网 站 ， 网 站 使 用 验证 码 进行 识别 ; 对 于 常见 的 用 于 攻 
击 网 站 的 XSS 攻 击 、SQL 注 入 、 进 行 编码 转换 等 相应 处 理 ;， 对 于 垃圾 
信息 、 敏 感 信息 进行 过 滤 ;对 交易 转账 等 重要 操作 根据 交易 模式 和 交 
易 信息 进行 风险 控制 。 


2.2 ”架构 模式 在 新 浪 微 博 的 应 用 


短 短 几 年 时 间 新 浪 微 博 的 用 户 数 就 从 零增长 到 数 亿 ， 明 星 用 户 的 
粉丝 数 达 数 干 万 ， 围 绕 着 新 浪 微 博 正 在 发 展 一 个 集 社交 、 媒 体 、 游 
戏 、 电 商 等 多 位 一 体 的 生态 系统 。 


同 大 多 数 网 站 一 样 ， 新 浪 微 博 也 是 从 一 个 小 网 站 发 展 起 来 的 。 简 
单 的 LAMP (Linux 十 Apache 十 MySQL 十 PHP) 架构 ， 支 撑 起 最 初 的 新 
浪 微 博 ， 应 用 程序 用 PHP 开 发 ， 所 有 的 数据 ， 包 括 微 博 、 用 户 、 关 系 
都 存储 在 MySQL 数 据 库 中 。 


这 样 简单 的 架构 无 法 支撑 新 浪 微 博 快 速 发 展 的 业务 需求 ， 随 着 访 
问 用 户 的 逐渐 增加 ， 系 统 不 卉 重负 。 新 浸 微 博 的 架构 在 较 短 时 间 内 几 
经 重 构 ， 最 后 形成 现在 的 架构 ， 如 图 2.1 所 示 。 
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图 2.1 新 浪 微 博 的 系统 架构 


(图 片 来 源 : http://timyang.net/architecture/weibo/) 


系统 分 为 三 个 层次 ， 最 下 层 是 基础 服务 层 ， 提 供 数据 库 、 缓 存 、 
存储 、 搜 索 等 数据 服务 ， 以 及 其 他 一 些 基础 技术 服务 ， 这 些 服务 支撑 
了 新 浪 微 博 的 海量 数据 和 高 并 发 访问 ， 是 整个 系统 的 技术 基础 。 


中 间 层 是 平台 服务 和 应 用 服务 层 ， 新 滔 微 博 的 核心 服务 是 微 博 、 
关系 和 用 户 ， 它 们 是 新 沪 微 博 业 务 大 厦 的 支柱 。 这 些 服务 被 分 割 为 独 
立 的 服务 模块 ， 通 过 依赖 调用 和 共享 基础 数据 构成 新 浪 微 博 的 业务 基 
础 。 


最 上 层 是 API 和 新 浪 微 博 的 业务 层 ， 各 种 客户 端 (包括 Web 网 站 ) 
和 第 三 方 应 用 ， 通 过 调用 API 集 成 到 新 沪 微 博 的 系统 中 ， 共 同 组 成 一 
个 生态 系统 。 


这 些 被 分 层 和 分 割 后 的 业务 模块 与 基础 技术 模块 分 布 式 部 署 ， 每 
个 模块 都 部 署 在 一 组 独立 的 服务 器 集群 上 ， 通 过 远程 调用 的 方式 进行 
依赖 访问 。 新 沪 微 博 在 早期 还 使 用 过 一 种 叫 作 MPSS (MultiPort Single 
Server， 单 服务 器 多 端口 ) 的 分 布 式 集群 部 署 方 案 ， 在 集群 中 的 多 台 
服务 器 上 ， 每 台 都 部 署 多 个 服务 ， 每 个 服务 使 用 不 同 的 端口 对 外 提供 
服务 ， 通 过 这 种 方式 使 得 有 限 的 服务 器 可 以 部 署 更 多 的 服务 实例 ， 改 
善 服务 的 负载 均衡 和 可 用 性 。 现 在 网 站 应 用 中 单 见 的 将 物理 机 虚拟 化 
成 多 个 虚拟 机 后 ， 在 虚拟 机 上 部 署 应 用 的 方案 跟 新 浪 微 博 的 MPSS 方 
案 异 曲 同 工 ， 只 是 更 加 简单 ， 还 能 在 不 同 虚拟 机 上 使 用 相同 的 端口 
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在 新 滔 微 博 的 早期 以 构 中 ， 微 博 发 布 使 用 同步 推 模式 ， 用 户 发 表 
微 博 后 系统 会 立即 将 这 条 微 博 插入 到 数据 库 所 有 粉丝 的 订阅 列表 中 ， 
当 用 户 量 比较 大 时 ， 特 别 是 明星 用 户 发 布 微 博 时 ， 会 引起 大 量 的 数据 
库 写 操作 ， 超 出 数据 库 负载 ， 系 统 性 能 急剧 下 降 ， 用 户 了 响应 延迟 加 


剧 。 后 来 新 浪 微 博 改 用 异步 推拉 结合 的 模式 ， 用 户 发 表 微 博 后 系统 将 
微 博 写 入 消息 队列 后 立即 返回 ， 用 户 响 应 迅速 ， 消 息 队 列 消 费 者 任务 
将 微 博 推送 给 所 有 当前 在 线 粉丝 的 订阅 列表 中 ， 非 在 线 用 户 登录 后 表 
根据 关注 列表 拉 取 微 博 订阅 列表 。 


由 于 微 博 频繁 刷新 ， 新 浪 微 博 使 用 多 级 缓存 策略 ， 热 门 微 博 和 明 
星 用 户 的 微 博 缓存 在 所 有 的 微 博 服务 器 上 ， 在 线 用 户 的 微 博 和 近期 微 
博 缓存 在 分 布 式 缓存 集群 中 ， 对 于 微 博 操 作 中 最 单 见 的 “ 刷 微 博 ” 操 
作 ， 几 乎 全 部 都 是 缓存 访问 操作 ， 可 以 获得 很 好 的 系统 性 能 。 


为 了 提高 系统 的 整体 可 用 性 和 性 能 ， 新 浪 微 博 启 用 了 多 个 数据 中 
心 。 这 些 数据 中 心 既 是 地 区 用 户 访问 中 心 ， 用 户 可 以 就 近 访 问 最 近 的 
数据 中 心 以 加 快 访问 速度 ， 改 善 系统 性 能 ; 同时 也 是 数据 宛 余 复制 的 
灾 备 中 心 ， 所 有 的 用 户 和 微 博 数据 通过 远程 消息 系统 在 不 同 的 数据 中 
心 之 间 同 步 ， 提 高 系统 可 用 性 。 


同时 ， 新 浪 微 博 还 开发 了 一 系列 自动 化 工具 ， 包 括 自动 化 监控 ， 
自动 化 发 布 ， 自 动 化 故障 修复 等 ， 这 些 自动 化 工具 还 在 持续 开发 中 ， 
以 改善 运 维 水 平 提高 系统 可 用 性 。 


由 于 微 博 的 开放 特性 ， 新 浪 微 博 也 遇 到 了 一 系列 的 安全 挑战 ， 垃 
圾 内 容 、 僵 尸 粉 、 微 博 攻击 从 未 停止 ， 除 了 使 用 一 般 网 站 单 见 的 安全 
策略 ， 新 沪 微 博 在 开放 平台 上 使 用 多 级 安全 审核 的 策略 以 保护 系统 和 
用 户 。 


2.3 “小 结 


在 程序 设计 与 架构 设计 领域 ， 模 式 正 变 得 越 来 越 受 人 关注 ， 许 多 
人 育 希 望 通过 模式 一 劳 永 逸 地 解决 自己 的 问题 。 正 人 确 使 用 模式 可 以 更 
好 地 利用 业界 和 前 人 的 思想 与 实践 ， 用 更 少 的 时 间 开 发 出 更 好 的 系 
统 ， 使 设计 者 的 水 平 也 达到 更 高 的 境界 。 但 是 模式 受 其 适用 场景 限 
制 ， 对 系统 的 要 求 和 约束 也 很 多 ， 不 恰当 地 使 用 模式 只 会 画 虎 不 成 反 
类 大 ， 不 但 没有 解决 原来 的 老 问 题 ， 反 而 市 来 了 更 环 手 的 新 问题 。 


好 的 设计 绝对 不 是 模仿 ， 不 是 生 搬 硬 套 某 个 模式 ， 而 是 对 问题 深 
刻 理解 之 上 的 创造 与 创新 ， 即 使 是 “ 微 创 新 "， 也 是 让 人 耳目 一 新 的 似 
曾 相识 。 山 寨 与 创新 的 最 大 区 别 不 在 于 是 否 抄袭 ， 是 否 模 仿 ， 而 在 于 
对 问题 和 需求 是 否 真正 理解 与 把 握 。 


3 ”大 型 网 站 核心 染 构 要 素 


关于 什么 是 架构 ， 一 种 比较 通俗 的 说 法 是 “最 高 层次 的 规划 ， 难 
以 改变 的 决定 ”， 这 些 规 划 和 决定 奠定 了 事物 未 来 发 展 的 方向 和 最 终 
的 蓝图 。 


从 这 个 意义 上 说 ， 人 生 规 划 也 是 一 种 架构 。 选 什么 学 
校 、 学 什么 专业 、 进 什么 公司 、 找 什么 对 象 ， 过 什么 样 的 生 
活 ， 都 是 自己 人 生 的 架构 。 


具体 到 软件 架构 ， 维 基 百 科 是 这 样 定义 的 :“ 有 关 软 件 整体 结构 
与 组 件 的 抽象 描述 ， 用 于 指导 大 型 软件 系统 各 个 方面 的 设计 ”。 系 统 
的 各 个 重要 组 成 部 分 及 其 关系 构成 了 系统 的 架构 ， 这 些 组 成 部 分 可 以 
是 具体 的 功能 模块 ， 也 可 以 是 非 功 能 的 设计 与 决策 ， 他 们 相互 关系 组 
成 一 个 整体 ， 共 同 构成 了 软件 系统 的 染 构 。 


一 般 说 来 ， 除 了 当前 的 系统 功能 需求 外 ， 软 件 架构 还 需要 关注 性 
能 、 可 用 性 、 伸 缩 性 、 扩 展 性 和 安全 性 这 5 个 架构 要 素 ， 架 构 设 计 过 程 
中 需要 平衡 这 5 个 要 素 之 间 的 关系 以 实现 需求 和 架构 目标 ， 也 可 以 通过 
考察 这 些 染 构 要 素来 衡量 一 个 软件 架构 设计 的 优 劣 ， 判 断 其 是 否 满足 
期 望 。 


3.1 性 能 


性 能 是 网 站 的 一 个 重要 指标 ， 除 非 是 没 得 选择 (比如 只 能 到 
www.12306.cn 这 一 个 网 站 上 买 火车 票 ) ， 否 则 用 户 无 法 忍受 一 个 响应 
缓慢 的 网 站 。 一 个 打开 缓慢 的 网 站 会 导致 严重 的 用 户 流失 ， 很 多 时 候 
网 站 性 能 问题 是 网 站 架构 升级 优化 的 触发 器 。 可 以 说 性 能 是 网 站 架构 
设计 的 一 个 重要 方面 ， 任 何 软件 架构 设计 方案 都 必须 考虑 可 能 会 带 来 
的 性 能 问题 。 


也 正 是 因为 性 能 问题 几乎 无 处 不 在 ， 所 以 优化 网 站 性 能 的 手段 也 
非常 多 ， 从 用 户 浏览 器 到 数据 库 ， 影 响 用 户 请 求 的 所 有 环节 都 可 以 进 
行 性 能 优化 。 


在 浏览 器 端 ， 可 以 通过 浏览 器 缓存 、 使 用 页 面 压缩 、 合 理 布局 页 
面 、 减 少 Cookie 传 输 等 手段 改善 性 能 。 


还 可 以 使 用 CDN， 将 网 站 静态 内 容 分 发 至 离 用 户 最 近 的 网 络 服务 
商机 房 ， 使 用 户 通过 最 短 访问 路 径 获取 数据 。 可 以 在 网 站 机 房 部 署 反 
向 代理 服务 器 ， 缓 存 热点 文件 ， 加 快 请 求 响应 速度 ， 减 轻 应 用 服务 器 
负载 压力 。 


在 应 用 服务 器 端 ， 可 以 使 用 服务 器 本 地 缓存 和 分 布 式 缓存 ， 通 过 
缓存 在 内 存 中 的 热点 数据 处 理 用 户 请 求 ， 加 快 请 求 处 理 过 程 ， 减 轻 数 
据 库 负载 压力 。 


也 可 以 通过 异步 操作 将 用 户 请 求 发 送 至 消息 队列 等 待 后 续 任务 处 
理 ， 而 当前 请 求 直接 返回 响应 给 用 户 。 


在 网 站 有 很 多 用 户 高 并 发 请 求 的 情况 下 ， 可 以 将 多 台 应 用 服务 器 
组 成 一 个 集群 共同 对 外 服务 ， 提 高 整体 处 理 能 力 ， 改 善 性 能 。 


在 代码 层面 ， 也 可 以 通过 使 用 多 线程 、 改 善 内 存 管 理 等 手段 优化 
性 能 。 


在 数据 库 服务 器 端 ， 索 引 、 缓 存 、SQL 优 化 等 性 能 优化 手段 都 已 
经 比较 成 熟 。 而 方兴未艾 的 NoSQL 数 据 库 通过 优化 数据 模型 、 存 储 结 
构 、 伸 缩 特 性 等 手段 在 性 能 方面 的 优势 也 日 趋 明 显 。 


衡量 网 站 性 能 有 一 系列 指标 ， 重 要 的 有 响应 时 间 、TPS、 系 统 性 
能 计数 器 等 ， 通 过 测试 这 些 指标 以 确定 系统 设计 是 否 达到 目标 。 这 些 
间 标 也 是 网 站 监控 的 重要 参数 ， 通 过 监控 这 些 指标 可 以 分 析 系 统 瓶 
颈 ， 预 测 网 站 容量 ， 并 对 异常 指标 进行 报警 ， 保 障 系统 可 用 性 。 


对 于 网 站 而 言 ， 性 能 符合 预期 仅仅 是 必要 条 件 ， 因 为 无 法 预知 网 
站 可 能 会 面临 的 访问 压力 ， 所 以 必须 要 考察 系统 在 高 并 发 访问 情况 
下 ， 超 出 负载 设计 能 力 的 情况 下 可 能 会 出 现 的 性 能 问题 。 网 站 需要 长 
时 间 持 续 运 行 ， 还 必须 保证 系统 在 持续 运行 且 访 问 压力 不 均匀 的 情况 
下 保持 稳定 的 性 能 特性 。 


3.2 ”可 用 性 


对 于 大 型 网 站 而 言 ， 特 别 是 知名 网 站 ， 网 站 宕 掉 、 服 务 不 可 用 是 
一 个 重大 的 事故 ， 轻 则 影响 网 站 声誉 ， 重 则 可 能 会 摊 上 官司 。 对 于 电 
子 商务 类 网 站 ， 网 站 不 可 用 还 意味 着 损失 金钱 和 用 户 。 因 此 几乎 所 有 
网 站 都 承诺 7724 可 用 ， 但 事实 上 任何 网 站 都 不 可 能 达到 完全 的 7724 可 
用 ， 总 会 有 一 些 故 障 时 间 ， 扣 除 这 些 故障 时 间 ， 就 是 网 站 的 总 可 用 时 
间 ， 这 个 时 间 可 以 换算 成 网 站 的 可 用 性 指标 ， 以 此 衡量 网 站 的 可 用 
性 ， 一 些 知名 大 型 网 站 可 以 做 到 4 个 9 以 上 的 可 用 性 ， 也 就 是 可 用 性 超 
过 99.99%。 


因为 网 站 使 用 的 服务 器 硬件 通常 是 普通 的 商用 服务 器 ， 这 些 服务 
器 的 设计 目标 本 身 并 不 保证 高 可 用 ， 也 就 是 说 ， 很 有 可 能 会 出 现 服务 
器 硬件 故障 ， 也 就 是 俗称 的 服务 器 宕 机 。 大 型 网 站 通常 都 会 有 上 万 台 
服务 器 ， 每 天 都 必定 会 有 一 些 服务 器 宕 机 ， 因 此 网 站 高 可 用 架构 设计 
的 前 提 是 必然 会 出 现 服务 器 宕 机 ， 而 高 可 用 设计 的 目标 就 是 当 服 务 器 
宕 机 的 时 候 ， 服 务 或 者 应 用 依然 可 用 。 


网 站 高 可 用 的 主要 手段 是 见 余 ， 应 用 部 署 在 多 台 服 务 器 上 同时 提 
供 访 问 ， 数 据 存储 在 多 台 服 务 器 上 互相 备份 ， 任 何 一 台 服 务 器 宕 机 都 
会 影响 应 用 的 整体 可 用 ， 也 不 会 导致 数据 丢失 。 


对 于 应 用 服务 器 而 言 ， 多 台 应 用 服务 器 通过 负载 均衡 设备 组 成 一 
个 集群 共同 对 外 提供 服务 ， 任 何 一 台 服 务 器 宕 机 ， 只 需 把 请 求 切 换 到 
其 他 服务 器 就 可 实现 应 用 的 高 可 用 ， 但 是 一 个 前 提 条 件 是 应 用 服务 器 
上 不 能 保存 请 求 的 会 话 信息 。 否 则 服务 器 大 机， 会话 丢失 ， 即 使 将 用 
户 请 求 转发 到 其 他 服务 器 上 也 无 法 完成 业务 处 理 。 


对 于 存储 服务 器 ， 由 于 其 上 存储 着 数据 ， 需 要 对 数据 进行 实时 备 
份 ， 当 服务 器 宕 机 时 需要 将 数据 访问 转移 到 可 用 的 服务 器 上 ， 并 进行 
数据 恢复 以 保证 继续 有 服务 器 宕 机 的 时 候 数 据 依然 可 用 。 


除了 运行 环境 ， 网 站 的 高 可 用 还 需要 软件 开发 过 程 的 质量 保证 。 
通过 预 发 布 验证 、 自 动 化 测试 、 自 动 化 发 布 、 灰 度 发 布 等 手段 ， 减 少 
将 故障 引入 线 上 环境 的 可 能 ， 避 人 免 故 障 范围 扩大 。 

衡量 一 个 系统 染 构 设计 是 否 满足 高 可 用 的 目标 ， 束 是 假设 系统 中 


任何 一 台 或 者 多 台 服 务 器 宕 机 时 ， 以 及 出 现 各 种 不 可 预期 的 问题 时 ， 
系统 整体 是 否 依然 可 用 。 


3.3 ”伸缩 性 


大 型 网 站 需要 面 对 大 量 用 户 的 高 并 发 访问 和 存储 海量 数据 ， 不 可 
能 只 用 一 台 服 务 器 就 处 理 全 部 用 户 请 求 ， 存 储 全 部 数据 。 网 站 通过 集 
群 的 方式 将 多 台 服 务 器 组 成 一 个 整体 共同 提供 服务 。 所 谓 伸缩 性 是 指 
通过 不 断 向 集群 中 加 入 服务 器 的 手段 来 缓解 不 断 上 升 的 用 户 并 发 访问 
压力 和 不 断 增 长 的 数据 存储 需求 。 


衡量 架构 伸缩 性 的 主要 标准 束 是 是 否 可 以 用 多 台 服 务 器 构建 集 
群 ， 是 否 容 易 向 集群 中 添加 新 的 服务 器 。 加 入 新 的 服务 器 后 是 否 可 以 
提供 和 原来 的 服务 器 无 差别 的 服务 。 集 群 中 可 容纳 的 总 的 服务 器 数量 
是 否 有 限制 。 


对 于 应 用 服务 器 集群 ， 只 要 服务 器 上 不 保存 数据 ， 所 有 服务 器 都 
是 对 等 的 ， 通 过 使 用 合适 的 负载 均衡 设备 就 可 以 向 集群 中 不 断 加 入 服 


务 器 。 


对 于 缓存 服务 器 集群 ， 加 入 新 的 服务 器 可 能 会 导致 缓存 路 由 失 
效 ， 进 而 导致 集群 中 大 部 分 缓存 数据 都 无 法 访问 。 虽 然 缓存 的 数据 可 
以 通过 数据 库 重 新 加 载 ， 但 是 如 果 应 用 已 经 严重 依赖 缓存 ， 可 能 会 导 
致 整个 网 站 有 衣 并 。 需 要 改进 缓存 路 由 算法 保证 缓存 数据 的 可 访问 性 。 


关系 数据 库 虽 然 支 持 数据 复制 ， 主 从 热 备 等 机 制 ， 但 是 很 难 做 到 
大 规模 集群 的 可 伸缩 性 ， 因 此 关系 数据 库 的 集群 伸缩 性 方案 必须 在 数 
据 库 之 外 实现 ， 通 过 路 由 分 区 等 手段 将 部 署 有 多 个 数据 库 的 服务 器 组 
成 一 个 集群 。 


至 于 大 部 分 NoSQL 数 据 库 产品 ， 由 于 其 先天 就 是 为 海量 数据 而 
生 ， 因 此 其 对 伸缩 性 的 支持 通常 都 非常 好 ， 可 以 做 到 在 较 少 运 维 参与 
的 情况 下 实现 集群 规模 的 线性 伸缩 。 


3.4 扩展 性 


不 同 于 其 他 架构 要 素 主要 关注 非 功能 性 需求 ， 网 站 的 扩展 性 染 构 
直接 关注 网 站 的 功能 需求 。 网 站 快速 发 展 ， 功 能 不 断 扩 展 ， 如 何 设计 
网 站 的 架构 使 其 能 够 快速 响应 需求 变化 ， 是 网 站 可 扩展 架构 主要 的 目 
的 。 


衡量 网 站 架构 扩展 性 好 坏 的 主要 标准 就 是 在 网 站 增加 新 的 业务 产 
品 时 ， 是 否 可 以 实现 对 现 有 产品 透明 无 影响 ， 不 需要 任何 改动 或 者 很 
少 改动 既 有 业务 功能 融 可 以 上 绪 新 产品 。 不 同 产品 之 间 是 否 很 少 耦 
合 ， 一 个 产品 改动 对 其 他 产品 无 影响 ， 其 他 产品 和 功能 不 需要 受 牵 连 
进行 改动 。 


网 站 可 伸缩 染 构 的 主要 手段 是 事件 驱动 染 构 和 分 布 式 服务 。 


事件 驱动 架构 在 网 站 通常 利用 消息 队列 实现 ， 将 用 户 请 求 和 其 他 
业务 事件 构造 成 消息 发 布 到 消息 队列 ， 消 息 的 处 理 者 作为 消费 者 从 消 
息 队列 中 获取 消息 进行 处 理 。 通 过 这 种 方式 将 消息 产生 和 消息 处 理 分 
离开 来 ， 可 以 透明 地 增加 新 的 消息 生产 者 任务 或 者 新 的 消息 消费 者 任 


务 。 


分 布 式 服务 则 是 将 业务 和 可 复 用 服务 分 离开 来 ， 通 过 分 布 式 服务 
框架 调用 。 新 增产 品 可 以 通过 调用 可 复 用 的 服务 实现 自身 的 业务 逻 
辑 ， 而 对 现 有 产品 没有 任何 影响 。 可 复 用 服务 升级 变更 的 时 候 ， 也 可 
以 通过 提供 多 版 本 服务 对 应 用 实现 透明 升级 ， 不 需要 强制 应 用 同步 变 
更 。 


大 型 网 站 为 了 保持 市 场地 位 ， 还 会 吸引 第 三 方 开发 者 ， 调 用 网 站 
服务 ， 使 用 网 站 数据 开发 周边 产品 ， 扩 展 网 站 业务 。 第 三 方 开 发 者 使 
用 网 站 服务 的 主要 途径 是 大 型 网 站 提供 的 开放 平台 接口 。 


3.5 “安全 性 


互联 网 是 开放 的 ， 任 何人 在 任何 地 方 都 可 以 访问 网 站 。 网 站 的 安 
全 架构 就 是 保护 网 站 不 受 恶 意 访 问 和 攻击 ， 保 护 网 站 的 重要 数据 不 被 
咏 取 。 


衡量 网 站 安全 架构 的 标准 就 是 针对 现存 和 潜在 的 各 种 攻击 与 窃 密 
手段 ， 是 否 有 可 靠 的 应 对 策略 。 


3.6 “小 结 


性 能 、 可 用 性 、 伸 缩 性 、 扩 展 性 和 安全 性 是 网 站 架构 最 核心 的 几 
个 要 素 ， 这 几 个 问题 解决 了 ， 大 型 网 站 架构 设计 的 大 部 分 挑战 也 就 克 
服 了 。 因 此 本 书 第 二 篇 即 按 这 五 个 架构 要 素 进 行 组 织 。 


本 章 既 可 以 看 作 本 书 第 二 篇 的 前 情 提要 ， 同 时 也 可 以 当做 第 二 篇 
的 总 结 和 归纳 ， 阅 读本 章 过 程 中 如 果 有 任何 困惑 都 不 必 纠 结 ， 请 直接 
跳 过 ， 等 读 完 全 书后 可 以 再 回头 重新 回顾 。 


第 2 篇 ”架构 


4 瞬时 响应 : 网 站 的 高 性 能 染 构 


什么 叫 高 性 能 的 网 站 ? 


两 个 网 站 性 能 架构 设计 方案 : A 方案 和 B 方 案 ，A 方 案 在 小 于 100 
个 并 发 用 户 访问 时 ， 每 个 请 求 的 响应 时 间 是 1 秒 ， 当 并 发 请 求 达到 200 
的 时 候 ， 请 求 的 响应 时 间 将 又 增 到 10 秒 。B 方 案 不 管 是 100 个 并 发 用 户 
访问 还 是 200 个 并 发 用 户 访问 ， 每 个 请 求 的 响应 时 间 都 差不多 是 1.5 
秒 。 哪 个 方案 的 性 能 好 ? 如 果 老 板 说 “我 们 要 改善 网 站 的 性 能 ”他 指 
的 是 什么 ? 


同类 型 的 两 个 网 站 ，X 网 站 服务 器 平均 每 个 请 求 的 处 理 时 间 是 500 
窗 秒 ，Y 网 站 服务 器 平均 每 个 请 求 的 处 理 时 间 是 1000 窜 秒 ， 为 什么 用 
户 却 反映 Y 网 站 的 速度 快 呢 ? 


网 站 性 能 是 客观 的 指标 ， 可 以 具体 体现 到 响应 时 间 、 吞 吐 量 等 技 
术 指标 ， 同 时 也 是 主观 的 感受 ， 而 感受 则 是 一 种 与 具体 参与 者 相关 的 
微妙 的 东西 ， 用 户 的 感受 和 工程 师 的 感受 不 同 ， 不 同 的 用 户 感受 也 不 
同 。 


4.1 网 站 性 能 测试 


性 能 测试 是 性 能 优化 的 前 提 和 基础 ， 也 是 性 能 优化 结果 的 检查 和 
度量 标准 。 不 同 视 角 下 的 网 站 性 能 有 不 同 的 标准 ， 也 有 不 同 的 优化 手 
段 。 


4.1.1 不 同 视角 下 的 网 站 性 能 
软件 工程 师 说 到 网 站 性 能 的 时 候 ， 通 常 和 用 户 说 的 不 一 样 。 
1. 用 户 视角 的 网 站 性 能 


从 用 户 角 度 ， 网 站 性 能 就 是 用 户 在 浏览 器 上 直观 感受 到 的 网 站 响 
应 速度 快 还 是 慢 。 用 户 感 受到 的 时 间 ， 包 括 用 户 计算 机 和 网 站 服务 器 
通信 的 时 间 、 网 站 服务 器 处 理 的 时 间 、 用 户 计 算 机 浏览 器 构造 请 求解 
析 响 应 数据 的 时 间 ， 如 图 4.1 所 示 。 


= 2 
1 通过 鼠标 或 键盘 发 出 请 求 操作 一 一 一 > [| | 一 一 2 发 送 HTTP 请 求 一 一 > 国 
< 一 一 一 4 通过 屏幕 看 到 响应 信息 /A + 收 到 HTTP 响 应 ?| ts ; 
用 户 用 户 电脑 网 站 服务 器 


图 4.1 ”用户 视 角 的 网 站 性 能 


不 同 计 算 机 的 性 能 差异 ， 不 同 浏览 器 解析 HTML 速 度 的 差异 ， 不 
同 网 络 运营 商 提供 的 互联 网 宽带 服务 的 差异 ， 这 些 差异 最 终 导 致 用 户 
感受 到 的 响应 延迟 可 能 会 远 远大 于 网 站 服务 器 处 理 请 求 需要 的 时 间 。 


在 实践 中 ， 使 用 一 些 前 端 架 构 优 化 手段 ， 通 过 优化 页 面 HTML 式 
样 、 利 用 浏览 器 端的 并 发 和 异步 特性 、 调 整 浏览 器 缓存 策略 、 使 用 


CDN 服 务 、 反 向 代理 等 手段 ， 使 浏览 器 尽快 地 显示 用 户 感 兴趣 的 内 
容 、 尽 可 能 近 地 获取 页 面 内 容 ， 即 使 不 优化 应 用 程序 和 架构 ， 也 可 以 
很 大 程度 地 改善 用 户 视 角 下 的 网 站 性 能 。 


2. 开发 人 员 视 角 的 网 站 性 能 


开发 人 员 关 注 的 主要 是 应 用 程序 本 身 及 其 相关 子 系统 的 性 能 ， 包 
括 响应 延迟 、 系 统 吞 吐 量 、 并 发 处 理 能 力 、 系 统 稳定 性 等 技术 指标 。 
主要 的 优化 手段 有 使 用 缓存 加 速 数 据 读 取 ， 使 用 集群 提高 吞吐 能 力 ， 
使 用 异步 消息 加 快 请 求 响应 及 实现 削 峰 ， 使 用 代码 优化 手段 改善 程序 


性 能 。 
3. 运 维 人 员 视 角 的 网 站 性 能 


运 维 人 员 更 关注 基础 设施 性 能 和 资源 利用 率 ， 如 网 络 运营 商 的 读 
宽 能 力 、 服 务 器 硬件 的 配置 、 数 据 中 心 网 络 架构 、 服 务 器 和 网 络 带 宽 
的 资源 利用 率 等 。 主 要 优化 手段 有 建设 优化 骨干 网 、 使 用 高 性 价 比 定 
制服 务 器 、 利 用 虚拟 化 技术 优化 资源 利用 等 。 


4.1.2 ”性 能 测试 指标 


不 同 视 角 下 有 不 同 的 性 能 标准 ， 不 同 的 标准 有 不 同 的 性 能 测试 指 
标 ， 从 开发 和 测试 人 员 的 视角 ， 网 站 性 能 测试 的 主要 指标 有 响应 时 
间 、 并 发 数 、 吞 吐 量 、 性 能 计数 器 等 。 


1. 响应 时 间 


中 应 用 执行 一 个 操作 需要 的 时 间 ， 包 括 从 发 出 请 求 开 始 到 收 到 最 
后 响应 数据 所 需要 的 时 间 。 响 应 时 间 是 系统 最 重要 的 性 能 指标 ， 直 观 
地 反映 了 系统 的 “快慢 "。 表 4.1 列 出 了 一 些 常用 的 系统 操作 需要 的 响应 
时 间 。 


表 4.1 ”常用 系统 操作 响应 时 间 表 


操 帮 响应 时 间 
打开 一 个 网 站 几 秒 
在 数据 库 中 查询 一 条 记录 ( 有 索引 ) 上 几 毫 秒 
机 械 磁盘 一 次 寻 址 定位 4 台 秒 
从 机 械 磁 盘 顺 序 读 取 1MB 数据 2 萤 秒 
从 SSD 磁盘 顺序 读 取 1MB 数据 0.3 毫秒 
从 远程 分 布 式 缓 存 Redis 读 取 一 个 数据 0.5 晶 秒 
从 内 存 中 读 取 1MB 数据 上 上 几 微 秒 
Java 程序 本 地 方法 调用 几 微 秒 
网 络 传输 2KB 数据 1 微 秒 


(部 分 数据 来 源 : http://www.eecs.berkeley.edu/~rcs/research/interactive_latency.html) 


测试 程序 通过 模拟 应 用 程序 ， 记 录 收 到 响应 和 发 出 请 求 之 间 的 时 
间 差 来 计算 系统 响应 时 间 。 但 是 记录 及 获取 系统 时 间 这 个 操作 也 需 
花费 一 定 的 时 间 ， 如 果 测 试 目标 操作 本 身 需 要 花费 的 时 间 极 少 ， 比 如 
几 微 秒 ， 那 么 测试 程序 就 无 法 测试 得 到 系统 的 响应 时 间 。 实 践 中 通常 
采用 的 办 法 是 重复 请 求 ， 比 如 一 个 请 求 操作 重复 执行 一 万 次 ， 测 试 一 
万 次 执行 需要 的 总 响应 时 间 之 和 ， 然 后 除 以 一 万 ， 得 到 单 次 请 求 的 响 
应 时 间 。 


2。 并 发 数 


指 系统 能 够 同时 处 理 请 求 的 数目 ， 这 个 数字 也 反映 了 系统 的 负载 
特性 。 对 于 网 站 而 言 ， 并 发 数 即 网 站 并 发 用 户 数 ， 指 同时 提交 请 求 的 
用 户 数 目 。 


与 网 站 并 发 用 户 数 相对 应 的 还 有 网 站 在 线 用 户 数 (当前 登录 网 站 
的 用 户 总 数 ) 和 网 站 系统 用 户 数 (可 能 访问 系统 的 总 用 户 数 ， 对 多 数 
网 站 而 言 就 是 注册 用 户 数 ) 。 其 数量 比较 关系 为 : 


网 站 系统 用 户 数 >> 网 站 在 线 用 户 数 >> 网 站 并 发 用 户 数 


在 网 站 产品 设计 初期 ， 产 品 经 理 和 运营 人 员 束 需要 规划 不 同 发 展 
阶段 的 网 站 系统 用 户 数 ， 并 以 此 为 基础 ， 根 据 产品 特性 和 运营 手段 ， 
推算 在 线 用 户 数 和 并 发 用 户 数 。 这 些 指标 将 成 为 系统 非 功 能 设计 的 重 
要 依据 。 


现实 中 ， 经 常 看 到 某 些 网 站 ， 特 别 是 电 商 类 网 站 ， 市 场 推广 人 员 
兴致 勃勃 地 打 广 告 打折 促销 ， 用 户 兴致 勃勃 地 去 抢购 ， 结 果 活动 刚 一 
开始 ， 就 因为 并 发 用 户 数 超过 网 站 最 大 负载 而 响应 缓慢 ， 急 性子 的 用 
户 不 停 刷 新 浏览 器 ， 导 致 系统 并 发 数 更 高 ， 最 后 以 服务 器 系统 骨 冲 ， 
用 户 浏览 器 显示 “Service is too busy” 而 告终 。 出 现 这 种 情况 ， 有 可 能 是 
网 站 技术 准备 不 充分 导致 ， 也 有 可 能 是 运营 人 员 错 误 地 评估 并 发 用 户 
数 导致 。 

测试 程序 通过 多 线程 模拟 并 发 用 户 的 办 法 来 测试 系统 的 并 发 处 理 
能 力 ， 为 了 真实 模拟 用 户 行为 ， 测 试 程序 并 不 是 启动 多 线程 然后 不 停 
地 发 送 请 求 ， 而 是 在 两 次 请 求 之 间 加 入 一 个 随机 等 待 时 间 ， 这 个 时 间 
被 称 作 思考 时 间 。 


3。 吞吐 量 


站 单位 时 间 内 系统 处 理 的 请 求 数量 ， 体 现 系统 的 整体 处 理 能 力 。 
对 于 网 站 ， 可 以 用 “请 求 数 / 秒 ” 或 是 “页 面 数 / 秒 ” 来 衡量 ， 也 可 以 用 “ 访 


问 人 数 / 天 ?或 是 “处 理 的 业务 数 / 小 时 ”等 来 衡量 。TPS (每 秒 事务 数 ) 
是 吞吐 量 的 一 个 常用 量化 指标 ， 此 外 还 有 HPS (每 秒 HTTP 请 求 数 ) 、 
QPS (每 秒 查 询 数 ) 等 。 


在 系统 并 发 数 由 小 逐渐 增 大 的 过 程 中 (这 个 过 程 也 伴随 着 服务 器 
系统 资源 消耗 逐渐 增 大 ) ， 系 统 吞吐 量 先是 逐渐 增加 ， 达 到 一 个 极限 
后 ， 随 着 并 发 数 的 增加 反而 下 降 ， 达 到 系统 骨 溃 点 后 ， 系 统 资源 耗 
尽 ， 否 吐 量 为 零 。 


而 这 个 过 程 中 ， 响 应 时 间 则 是 先 保持 小 幅 上 升 ， 到 达 吞 吐 量 极限 
后 ， 快 速 上 升 ， 到 达 系 统 骨 溃 点 后 ， 系 统 失去 响应 。 系 统 吞吐 量 、 系 
统 并 发 数 及 响应 时 间 之 间 的 关系 将 在 本 章 后 面 内 容 中 介绍 。 


系统 吞吐 量 和 系统 并 发 数 ， 以 及 响应 时 间 的 关系 可 以 形象 地 理解 
为 高 速 公路 的 通行 状况 : 吞吐 量 是 每 天 通过 收费 站 的 车 辆 数目 〈 可 以 
换算 成 收费 站 收取 的 高 速 费 ) ， 并 发 数 是 高 速 公 路 上 的 正在 行驶 的 车 
辆 数目 ， 响 应 时 间 是 车 速 。 车 辆 很 少时 ， 车 速 很 快 ， 但 是 收 到 的 高 速 
费 也 相应 较 少 ; 随 着 高 速 公 路 上 车 辆 数目 的 增多 ， 车 速 略 受 影响 ， 但 
是 收 到 的 高 速 费 增加 很 快 ， 随 着 车 辆 的 继续 增加 ， 车 速 变 得 越 来 越 
慢 ， 高 速 公路 越 来 越 塔 ， 收 费 不 增 反 降 ， 如 果 车 流量 继续 增加 ， 超 过 
某 个 极限 后 ， 任 何 偶然 因素 都 会 导致 高 速 全 部 瘫痪 ， 车 走 不 动 ， 费 当 
然 也 收 不 着 ， 而 高 速 公 路 成 了 停车 场 资源 耗 尽 ) 。 


网 站 性 能 优化 的 目的 ， 除 了 改善 用 户 体验 的 响应 时 间 ， 还 要 尽量 
提高 系统 吞吐 量 ， 最 大 限度 利用 服务 器 资源 。 


4. 性 能 计数 器 


它 是 描述 服务 器 或 操作 系统 性 能 的 一 些 数据 指标 。 包 括 System 
Load、 对 象 与 线程 数 、 内 存 使 用 、CPU 使 用 、 人 磁盘 与 网 络 1/O 等 指标 。 
这 些 指标 也 是 系统 监控 的 重要 参数 ， 对 这 些 指标 设置 报警 阅 值 ， 当 监 
控 系 统 发 现 性 能 计数 器 超过 阐 值 时 ， 就 向 运 维和 开发 人 员 报 警 ， 及 时 
发 现 处 理 系统 异常 。 


System Load 即 系统 负载 ， 指 当前 正在 被 CPU 执 行 和 等 待 被 CPU 执 
行 的 进程 数目 总 和 ， 是 反映 系统 忙 闲 程度 的 重要 指标 。 多 核 CPU 的 情 
况 下 ， 完 美 情 况 是 所 有 CPU 都 在 使 用 ， 没 有 进程 在 等 待 处 理 ， 所 以 
Load 的 理想 值 是 CPU 的 数目 。 当 Load 值 低 于 CPU 数目 的 时 候 ， 表 示 
CPU 有 空 亲 ， 资 源 存 在 浪费 ; 当 Load 值 高 于 CPU 数目 的 时 候 ， 表 示 进 
程 在 排队 等 待 CPU 调度 ， 表 示 系 统 资源 不 足 ， 影 响应 用 程序 的 执行 性 
能 。 在 Linux 系 统 中 使 用 top 命 令 查 看 ， 该 值 是 三 个 浮 点 数 ， 表 示 最 近 1 
分 钟 ，10 分 钟 ，15 分 钟 的 运行 队列 平均 进程 数 。 如 图 4.2 所 示 。 
top - 16:36:49 up 1 day, 5:53, 7 users, load average: 0.14, 0.20, 9.16 


图 4.2 ”在 Linux 命 令 行 查看 系统 负载 
4.1.3 ”性 能 测试 方法 


性 能 测试 是 一 个 总 称 ， 具 体 可 细 分 为 性 能 测试 、 负 和 载 测 试 、 压 力 
测试 、 稳 定性 测试 。 


性 能 测试 


以 系统 设计 初期 规划 的 性 能 指标 为 预期 目标 ， 对 系统 不 断 施加 压 
力 ， 验 证 系统 在 资源 可 接受 范围 内 ， 是 否 能 达到 性 能 预期 。 


负载 测试 


对 系统 不 断 地 增加 并 发 请 求 以 增加 系统 压力 ， 直 到 系统 的 某 项 或 
多 项 性 能 指标 达到 安全 临界 值 ， 如 某 种 资源 已 经 呈 饱 和 状态 ， 这 时 继 
续 对 系统 施加 压力 ， 系 统 的 处 理 能 力 不 但 不 能 提高 ， 反 而 会 下 降 。 


压力 测试 


超过 安全 负载 的 情况 下 ， 对 系统 继续 施加 压力 ， 直 到 系统 崩溃 或 
不 能 再 处 理 任何 请 求 ， 以 此 获得 系统 最 大 压力 承受 能 力 。 


稳定 性 测试 


被 测试 系统 在 特定 硬件 、 软 件 、 网 络 环境 条 件 下 ， 给 系统 加 载 一 
定 业 务 压力 ， 使 系统 运行 一 段 较 长 时 间 ， 以 此 检测 系统 是 否 稳定 。 在 
不 同 生 产 环 境 、 不 同时 间 点 的 请 求 压力 是 不 均匀 的 ， 呈 波浪 特性 ， 
此 为 了 更 好 地 模拟 生产 环境 ， 稳 定性 测试 也 应 不 均匀 地 对 系统 施加 压 
力 。 


性 能 测试 是 一 个 不 断 对 系统 增加 访问 压力 ， 以 获得 系统 性 能 指 
标 、 最 大 负载 能 力 、 最 大 压力 承受 能 力 的 过 程 。 所 谓 的 增加 访问 压 
力 ， 在 系统 测试 环境 中 ， 就 是 不 断 增 加 测试 程序 的 并 发 请 求 数 ， 一 般 
说 来 ， 性 能 测试 遵循 如 图 4.3 所 示 的 抛物 线 规律 。 


本 
TPS 


性 能 测试 


负载 测试 压力 测试 


C 
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图 4.3 ”性 能 测试 曲线 


图 4.3 中 的 横 坐 标 表示 消耗 的 系统 资源 ， 纵 坐标 表示 系统 处 理 能 
(吞吐 量 ) 。 在 开始 阶段 ， 随 着 并 发 请 求 数目 的 增加 ， 系 统 使 用 较 少 
的 资源 就 达到 较 好 的 处 理 能 力 (a~b 段 ) ， 这 一 段 是 网 站 的 日 常 运 行 
区 间 ， 网 站 的 绝 大 部 分 访问 负载 压力 都 集中 在 这 一 段 区 间 ， 被 称 作 性 
能 测试 ， 测 试 目标 是 评估 系统 性 能 是 否 符合 需求 及 设计 目标 ， 随 着 压 
力 的 持续 增加 ， 系 统 处 理 能 力 增加 变 缓 ， 直 到 达到 一 个 最 大 值 (c 
点 ) ， 这 是 系统 的 最 大 负载 点 ， 这 一 段 被 称 作 负载 测试 。 测 试 目标 是 
评估 当 系 统 因为 突 发 事件 超出 日 常 访问 压力 的 情况 下 ， 保 证 系统 正常 
运行 情况 下 能 够 承受 的 最 大 访问 负载 压力 ; 超过 这 个 点 后 ， 再 增加 压 
力 ， 系 统 的 处 理 能 力 反 而 下 降 ， 而 资源 消耗 却 更 多 ， 直 到 资源 消耗 达 
到 极限 (d 点 ) ， 这 个 点 可 以 看 作 是 系统 的 崩溃 点 ， 超 过 这 个 点 继续 
加 大 并 发 请 求 数目 ， 系 统 不 能 再 处 理 任何 请 求 ， 这 一 段 被 称 作 压力 测 
试 ， 测 试 目 标 是 评估 可 能 导致 系统 月 凌 的 最 大 访问 负载 压力 。 


性 能 测试 反应 的 是 系统 在 实际 生产 环境 中 使 用 时 ， 随 着 用 户 并 发 
访问 数量 的 增加 ， 系 统 的 处 理 能 力 。 与 性 能 曲线 相对 应 的 是 用 户 访问 
的 等 待 时 间 (系统 响应 时 间 ) ， 如 图 4.4 所 示 。 


a 系 纺 南 溃 点 
响应 时 间 日 常 运行 区 间 人 


系统 最 大 负载 点 
系统 最 性 运行 点 S 

| 
b 


并 发 用 户 类 
图 4.4 并 发 用 户 访问 响应 时 间 曲 线 


在 日 常 运行 区 间 ， 可 以 获得 最 好 的 用 户 响 应 时 间 ， 随 着 并 发 用 户 


数 的 增加 ， 响 应 延迟 越 来 越 大 ， 直 到 系统 朋 溃 ， 用 户 失 去 响应 。 
4.1.4 性 能 测试 报告 


测试 结果 报告 应 能 够 反映 上 述 性 能 测试 曲线 的 规律 ， 阅 读者 可 以 
得 到 系统 性 能 是 否 满 足 设计 目标 和 业务 要 求 、 系 统 最 大 负载 能 力 、 系 
六 


统 最 大 压力 承受 能 力 等 重要 信息 ， 表 4.2 是 一 个 简单 示例 。 


表 4.2 ”性 能 测试 结果 报告 
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4.1.5 ”性 能 优化 策略 


如 果 性 能 测试 结果 不 能 满足 设计 或 业务 需求 ， 那 么 就 需要 寻找 系 


统 瓶 颈 ， 分 而 治之 ， 逐 步 优 化 。 


1. 性 能 分 析 


大 型 网 站 结构 复杂 ， 用 户 从 浏览 器 发 出 请 求 直到 数据 库 完 成 操作 
事务 ， 中 间 需 要 经 过 很 多 环节 ， 如 果 测 试 或 者 用 户 报告 网 站 响应 缓 
慢 ， 存 在 性 能 问题 ， 必 须 对 请 求 经 历 的 各 个 环节 进行 分 析 ， 排 查 可 能 
出 现 性 能 瓶颈 的 地 方 ， 定 位 问题 。 


排查 一 个 网 站 的 性 能 瓶颈 和 排查 一 个 程序 的 性 能 瓶颈 的 手法 基本 
相同 : 检查 请 求 处 理 的 各 个 环节 的 日 志 ， 分 析 哪 个 环节 响应 时 间 不 合 
理 、 超 过 预期 ， 然 后 检查 监控 数据 ， 分 析 影 响 性 能 的 主要 因素 是 内 
存 、 磁 盘 、 了 网络、 还 是 CPU， 是 代码 问题 还 是 架构 设计 不 合理 ， 或 者 
系统 资源 确实 不 足 。 


2。 性 能 优化 
定位 产生 性 能 问题 的 具体 原因 后 ， 就 需要 进行 性 能 优化 ， 根 据 网 


站 分 层 染 构 ， 可 分 为 Web 前 端 性 能 优化 、 应 用 服务 器 性 能 优化 、 存 储 
服务 器 性 能 优化 3 大 类 。 


4.2 Web 前 端 性 能 优化 


一 般 说 来 Web 前 端 指 网 站 业务 逻辑 之 前 的 部 分 ， 包 括 浏览 器 加 
载 、 网 站 视图 模型 、 图 片 服 务 、CDN 服 务 等 ， 主 要 优化 手段 有 优化 浏 
览 器 访问 、 使 用 反 向 代理 、CDN 等 。 


4.2.1 浏览 器 访问 优化 
1. 减少 http 请 求 


HTTP 协 议 是 无 状态 的 应 用 层 协议 ， 意 味 着 每 次 HTTP 请 求 都 需要 
建立 通信 链 路 、 进 行 数据 传输 ， 而 在 服务 器 端 ， 每 个 HTTP 都 需要 启动 
独立 的 线程 去 处 理 。 这 些 通 信和 服务 的 开销 都 很 昂贵 ， 减 少 HITP 请 求 
的 数目 可 有 效 提 高 访问 性 能 。 


减少 HTTP 的 主要 手段 是 合并 CSS、 合 并 JavaScript、 合 并 图 片 。 将 
浏览 器 一 次 访问 需要 的 JavaScript、CSS 合 并 成 一 个 文件 ， 这 样 浏览 
就 只 需要 一 次 请 求 。 图 片 也 可 以 合并 ， 多 张 图 片 合并 成 一 张 ， 如 果 每 
张 图 片 都 有 不 同 的 超 链接 ， 可 通过 CSS 偏 移 响 应 鼠标 点 击 操作 ， 构 造 
不 同 的 URL。 


2. 使 用 浏览 器 缓存 


对 一 个 网 站 而 言 ，CSS、JavaScript、Logo、 图 标 这 些 静 态 资 源 文 
件 更 新 的 频率 都 比较 低 ， 而 这 些 文件 又 几乎 是 每 次 HTTP 请 求 都 需要 
的 ， 如 果 将 这 些 文件 缓存 在 浏览 器 中 ， 可 以 极 好 地 改善 性 能 。 通 过 设 


置 HITTP 头 中 Cache-Control 和 Expires 的 属性 ， 可 设 定 浏览 器 缓存 ， 缓 存 
时 间 可 以 是 数 天 ， 甚 至 是 几 个 月 。 


在 某 些 时 候 ， 静 态 资源 文件 变化 需要 及 时 应 用 到 客户 端 浏览 
这 种 情况 ， 可 通过 改变 文件 名 实现 ， 即 更 新 JavaScript 文 件 并 不 是 更 新 
JavaScript 文 件 内 容 ， 而 是 生成 一 个 新 的 JS 文 件 并 更 新 HTML 文 件 中 的 
引用 。 


使 用 浏览 器 缓存 策略 的 网 站 在 更 新 静态 资源 时 ， 应 采用 批量 更 新 
的 方法 ， 比 如 需要 更 新 10 个 图 标 文 件 ， 不 宜 把 10 个 文件 一 次 全 部 更 
新 ， 而 是 应 一 个 文件 一 个 文件 逐步 更 新 ， 并 有 一 定 的 间隔 时 间 ， 以 免 
J 浏览 器 突然 大 量 缓存 失效 ， 集 中 更 新 缓存 ， 造 成 服务 器 负载 又 

曾 、 网 络 堵塞 的 情况 。 


3。 启 用 压缩 


在 服务 器 端 对 文件 进行 压缩 ， 在 浏览 器 端 对 文件 解压 缩 ， 可 有 效 
减少 通信 传输 的 数据 量 。 文 本 文件 的 压缩 效率 可 达 80% 以 上 ， 因 此 
HTML、CSS、yJavaScript 文 件 启用 GZip 压 缩 可 达到 较 好 的 效果 。 但 是 
压缩 对 服务 器 和 浏览 器 产生 一 定 的 压力 ， 在 通信 带宽 良好 ， 而 服务 器 
资源 不 足 的 情况 下 要 权衡 考虑 。 


4. CSS 放 在 页 面 最 上 面 、JavaScript 放 在 页 面 最 下 面 
浏览 器 会 在 下 载 完全 部 CSS 之 后 才 对 整个 页 面 进行 泻 染 ， 因 此 最 


好 的 做 法 是 将 CSS 放 在 页 面 最 上 面 ， 让 浏览 器 尽快 下 载 CSS 。 
JavaScript 则 相反 ， 浏 览 器 在 加 载 JavaScript 后 立即 执行 ， 有 可 能 会 阻塞 


整个 页 面 ， 造 成 页 面 显示 缓 慢 ， 因 此 JavaScript 最 好 放 在 页 面 最 下 面 。 
但 如 果 页 面 解析 时 就 需要 用 到 JavaScript， 这 时 放 在 底部 就 不 合适 了 。 


5。 减 少 Cookie 传 输 


一 方面 ，Cookie 包 含 在 每 次 请 求 和 响应 中 ， 太 大 的 Cookie 会 严重 
影响 数据 传输 ， 因 此 哪些 数据 需要 写 入 Cookie 需 要 慎重 考虑 ， 尽 量 减 
少 Cookie 中 传输 的 数据 量 。 另 一 方面 ， 对 于 某 些 静 态 资源 的 访问 ， 如 
CSS、Script 等 ， 发 送 Cookie 没 有 意义 ， 可 以 考虑 静态 资源 使 用 独立 域 
名 访问 ， 避 人 免 请 求 静 态 资源 时 发 送 Cookie， 减 少 Cookie 传 输 的 次 数 。 


4.2.2 ” CDN 加 速 


CDN (Content Distribute Network， 内 容 分 发 网 络 ) 的 本 质 仍 然 是 
一 个 缓存 ， 而 且 将 数据 缓存 在 离 用 户 最 近 的 地 方 ， 使 用 户 以 最 快速 度 
获取 数据 ， 即 所 谓 网 络 访问 第 一 跳 ， 如 图 4.5 所 示 。 


网络 服务 提供 商 本 地 机 房 


网 站 应 用 服务 器 


图 4.5 利用 CDN 的 网 站 架构 


由 于 CDN 部 署 在 网 络 运营 商 的 机 房 ， 这 些 运营 商 又 是 终端 用 户 的 
网 络 服 务 提 供 商 ， 因 此 用 户 请 求 路 由 的 第 一 跳 就 到 达 了 CDN 服 务 器 ， 
当 CDN 中 存在 浏览 器 请 求 的 资源 时 ， 从 CDN 直 接 返 回 给 浏览 器 ， 最 短 
路 径 返 回响 应 ， 加 快 用 户 访问 速度 ， 减 少数 据 中 心 负载 压力 。 


CDN 能 够 缓存 的 一 般 是 静态 资产 ， 如 图 片 、 文 件 、CSS、Script 脚 
本 、 静 态 网 页 等 ， 但 是 这 些 文件 访问 频 度 很 高 ， 将 其 缓存 在 CDN 可 极 
大 改善 网 页 的 打开 速度 。 


4.2.3” 反 向 代理 


传统 代理 服务 器 位 于 浏览 器 一 侧 ， 代 理 浏览 器 将 HTTP 请 求 发 送 到 
互联 网 上 ， 而 反 向 代理 服务 器 位 于 网 站 机 房 一 侧 ， 代 理 网 站 Web 服 务 
器 接收 HTTP 请 求 。 如 图 4.6 所 示 。 


Web 服 务 器 


用 户 浏览 器 


图 4.6 ”利用 反 向 代理 的 网 站 架构 


和 传统 代理 服务 器 可 以 保护 浏览 器 安全 一 样 ， 反 向 代理 服务 器 也 
具有 保护 网 站 安全 的 作用 ， 来 自 互联 网 的 访问 请 求 必须 经 过 代理 服务 
器 ， 相 当 于 在 Web 服 务 器 和 可 能 的 网 络 攻击 之 间 建 立 了 一 个 屏障 。 


除了 安全 功能 ， 代 理 服务 器 也 可 以 通过 配置 缓存 功能 加 速 Web 请 
求 。 当 用 户 第 一 次 访问 静态 内 容 的 时 候 ， 静 态 内容 就 被 缓存 在 反 向 代 
理 服务 器 上 ， 这 样 当 其 他 用 户 访问 该 静态 内 容 的 时 候 ， 就 可 以 直接 从 
反 向 代理 服务 器 返回 ， 加 速 Web 请 求 响应 速度 ， 减 轻 Web 服 务 器 负载 
压力 。 事 实 上 ， 有 些 网 站 会 把 动态 内 容 也 缓存 在 代理 服务 器 上 ， 比 如 
维基 百科 及 某 些 博客 论坛 网 站 ， 把 热门 词 条 、 帖 子 、 博 客 缓存 在 反 向 
代理 服务 器 上 加 速 用 户 访问 速度 ， 当 这 些 动态 内 容 有 变化 时 ， 通 过 内 
部 通知 机 制 通知 反 向 代理 缓存 失效 ， 反 向 代理 会 重新 加 载 最 新 的 动态 
内 容 再 次 缓存 起 来 。 


此 外 ， 反 向 代理 也 可 以 实现 负载 均衡 的 功能 ， 而 通过 负载 均衡 构 
建 的 应 用 集群 可 以 提高 系统 总 体 处 理 能 力 ， 进 而 改善 网 站 高 并 发 情况 


下 的 性 能 。 


4.3 ”应 用 服务 器 性 能 优化 


应 用 服务 器 就 是 处 理 网 站 业务 的 服务 器 ， 网 站 的 业务 代码 都 部 署 
在 这 里 ， 是 网 站 开发 最 复杂 ， 变 化 最 多 的 地 方 ， 优 化 手段 主要 有 缓 
存 、 集 群 、 异 步 等 。 


4.3.1 “分 布 式 缓存 


回顾 网 站 絮 构 总 化 历程 ， 当 网 站 遇 到 性 能 瓶颈 时 ， 第 一 个 想到 的 
解决 方案 就 是 使 用 缓存 。 在 整个 网 站 应 用 中 ， 缓 存 几乎 无 所 不 在 ， 既 
存在 于 浏览 器 ， 也 存在 于 应 用 服务 器 和 数据 库 服务 器 ， 既 可 以 对 数据 
缓存 ， 也 可 以 对 文件 缓存 ， 还 可 以 对 页 面 片段 缓存 。 合 理 使 用 缓存 ， 
对 网 站 性 能 优化 意义 重大 。 


网 站 性 能 优化 第 一 定律 : 优先 考虑 使 用 缓存 优化 性 能 。 


1. 缓存 的 基本 原理 


缓存 指 将 数据 存储 在 相对 较 高 访问 速度 的 存储 介质 中 ， 以 供 系 统 
处 理 。 一 方面 缓存 访问 速度 快 ， 可 以 减少 数据 访问 的 时 间 ， 另 一 方面 
如 果 缓 存 的 数据 是 经 过 计算 处 理 得 到 的 ， 那 么 被 缓存 的 数据 无 需 重复 
计算 即 可 直接 使 用 ， 因 此 缓存 还 起 到 减少 计算 时 间 的 作用 。 


缓存 的 本 质 是 一 个 内 存 Hash 表 ， 网 站 应 用 中 ， 数 据 缓存 以 一 对 
Key、 Value 的 形式 存储 在 内 存 Hash 表 中 。Hash 表 数据 读 写 的 时 间 复 杂 


度 为 O (1) ， 图 4.7 为 一 对 KV 在 Hash 表 中 的 存储 。 


计算 key 的 HashCode 


"abc" HashCode 
=101 


计算 HashCode 对 应 的 Hash 表 索引 


图 4.7 ”Hash 表 存储 例子 


NoOMhwNe=-o 


计算 KV 对 中 Key 的 HashCode 对 应 的 Hash 表 索引 ， 可 快速 访问 Hash 
表 中 的 数据 。 许 多 语言 支持 获得 任意 对 象 的 HashCode， 可 以 把 
HashCode 理 解 为 对 象 的 唯一 标示 符 ，Java 语 言 中 Hashcode 方 法 包含 在 
根 对 象 Object 中 ， 其 返回 值 是 一 个 Int。 然 后 通过 Hashcode 计 算 Hash 表 
的 索引 下 标 ， 最 简单 的 是 余数 法 ， 使 用 Hash 表 数组 长 度 对 Hashcode 求 
余 ， 余 数 即 为 Hash 表 索引 ， 使 用 该 索引 可 直接 访问 得 到 Hash 表 中 存储 
的 KV 对 。Hash 表 是 软件 开发 中 常用 到 的 一 种 数据 结构 ， 其 设计 思想 在 
很 多 场景 下 都 可 以 应 用 。 


缓存 主要 用 来 存放 那些 读 写 比 很 高 、 很 少 变化 的 数据 ， 如 商品 的 
类 目 信息 ， 热 门 词 的 搜索 列表 信息 ， 热 门 商 品 信息 等 。 应 用 程序 读 取 
数据 时 ， 先 到 缓存 中 读 取 ， 如 果 读 取 不 到 或 数据 已 失效 ， 再 访问 数据 
库 ， 并 将 效 据 写 入 缓存 ， 如 图 4.8 所 示 。 


Le 
应 用 程序 
了、 
A 


1 读 取 才 扣 2 A NN 
| mani 
组 丰 
数据 库 


图 4.8 ”使 用 缓存 存 取 数 据 


网 站 数据 访问 通常 遵循 二 八 定律 ， 即 80% 的 访问 落 在 20% 的 数据 
上 ， 因 此 利用 Hash 表 和 内 存 的 高 速 访问 特性 ， 将 这 20% 的 数据 缓存 起 
来 ， 可 很 好 地 改善 系统 性 能 ， 提 高 数据 读 取 速度 ， 降 低 存 储 访问 压 
力 。 


2。 合理 使 用 缓存 


使 用 缓存 对 提高 系统 
不 能 提高 系统 的 性 能 ， 还 
存 滥用 的 情景 展 见 不 鲜 
用 缓存 的 数据 访问 特性 等 。 


频繁 修改 的 数据 


如 果 缓 存 中 保存 的 是 频繁 修 改 的 数据 ， 融 会 出 现 数据 写 入 缓存 
后 ， 应 用 还 来 不 及 读 取 缓 存 ， 数 据 就 已 失效 的 情形 ， 徒 增 系统 负担 。 
一 般 说 来 ， 数 据 的 读 写 比 在 2:1 以 上 ， 即 写 入 一 次 缓存 ， 在 数据 更 新 前 


性 能 有 很 多 好 处 ， 但 是 不 合理 使 用 缓存 非但 
会 成 为 系统 的 累 痪 ， 甚 至 风险 。 实 践 中 ， 缓 
过 分 依赖 低 可 用 的 缓存 系统 、 不 恰当 地 使 


至 少 读 取 两 次 ， 缓 存 才 有 意义 。 实 践 中 ， 这 个 读 写 比 通常 非常 高 ， 比 
如 新 浪 微 博 的 热门 微 博 ， 缓 存 以 后 可 能 会 被 读 取 数 百 万 次 。 


没有 热点 的 访问 


缓存 使 用 内 存 作 为 存储 ， 内 存 资 源 宝贵 而 有 限 ， 不 可 能 将 所 有 数 
据 都 缓存 起 来 ， 只 能 将 最 新 访问 的 数据 缓存 起 来 ， 而 将 历史 数据 清理 
出 缓存 。 如 果 应 用 系统 访问 数据 没有 热点 ， 不 遵循 二 八 定律 ， 即 大 部 
分 数据 访问 并 没有 集中 在 小 部 分 数据 上 ， 那 么 缓存 就 没有 意义 ， 因 为 
大 部 分 数据 还 没有 被 再 次 访问 就 已 经 被 挤 出 缓存 了 。 


数据 不 一 致 与 脏 读 


一 般 会 对 缓存 的 数据 设置 失效 时 间 ， 一 旦 超过 失效 时 间 ， 束 要 从 
数据 库 中 重新 加 载 。 因 此 应 用 要 容忍 一 定时 间 的 数据 不 一 致 ， 如 卖家 
已 经 编辑 了 商品 属性 ， 但 是 需要 过 一 段 时 间 才 能 被 买 家 看 到 。 在 互联 
网 应 用 中 ， 这 种 延迟 通 单 是 可 以 接受 的 ， 但 是 具体 应 用 仍 需 慎重 对 
待 。 还 有 一 种 策略 是 数据 更 新 时 立即 更 新 缓存 ， 不 过 这 也 会 带 来 更 多 
系统 开销 和 事务 一 致 性 的 问题 。 


缓存 可 用 性 


缓存 是 为 提高 数据 读 取 性 能 的 ， 缓 存 数据 丢失 或 者 缓存 不 可 用 不 
会 影响 到 应 用 程序 的 处 理 一 一 它 可 以 从 数据 库 直 接 获 取 数 据 。 但 是 随 
着 业务 的 发 展 ， 缓 存 会 承担 大 部 分 数据 访问 的 压力 ， 数 据 库 已 经 习惯 
了 有 缓存 的 日 子 ， 所 以 当 缓存 服务 骨 溃 时 ， 数 据 库 会 因为 完全 不 能 承 
受 如 此 大 的 压力 而 宕 机 ， 进 而 导致 整个 网 站 不 可 用 。 这 种 情况 被 称 作 
缓存 雪 衣 ， 发 生 这 种 故障 ， 甚 至 不 能 简单 地 重启 缓存 服务 器 和 数据 库 
服务 器 来 恢复 网 站 访问 。 


实践 中 ， 有 的 网 站 通过 缓存 热 备 等 手段 提高 缓存 可 用 性 : 当 某 台 
缓存 服务 器 宕 机 时 ， 将 缓存 访问 切换 到 热 备 服务 器 上 。 但 是 这 种 设计 
显然 有 违 缓存 的 初 袁 ， 缓 存根 本 就 不 应 该 被 当做 一 个 可 靠 的 数据 源 来 
使 用 。 


通过 分 布 式 缓存 服务 器 集群 ， 将 缓存 数据 分 布 到 集群 多 台 服 务 器 
上 可 在 一 定 程度 上 改善 缓存 的 可 用 性 。 当 一 台 缓 存 服务 器 宕 机 的 时 
候 ， 只 有 部 分 缓存 数据 丢失 ， 重 新 从 数据 库 加 载 这 部 分 数据 不 会 对 数 
据 库 产生 很 大 影响 。 


产品 在 设计 之 初 就 需要 一 个 明确 的 定位 : 什么 是 产品 要 
实现 的 功能 ， 什 么 不 是 产品 提供 的 特性 。 在 产品 漫长 的 生命 
周期 中 ， 会 有 形形色色 的 困难 和 诱惑 来 改变 产品 的 发 展 方 
向 ， 左 右 摇摆 、 什 么 都 想 做 的 产品 ， 最 后 有 可 能 成 为 一 个 失 
去 生命 力 的 四 不 像 。 


缓存 预 热 


缓存 中 存放 的 是 热点 数据 ， 热 点 数据 又 是 缓存 系统 利用 LRU (最 
近 最 久未 用 算法 ) 对 不 断 访问 的 数据 筛选 淘汰 出 来 的 ， 这 个 过 程 需 
人 花费 较 长 的 时 间 。 新 启动 的 缓存 系统 如 果 没 有 任何 数据 ， 在 重建 缓存 
效 据 的 过 程 中 ， 系 统 的 性 能 和 数据 库 负 载 都 不 太 好 ， 那 么 最 好 在 缓存 


(warm up) 。 对 于 一 些 元 数据 如 城市 地 名 列表 、 类 目 信息 ， 可 以 在 启 
动 时 加 载 数 据 库 中 全 部 数据 到 缓存 进行 预 热 。 


缓存 穿 透 


如 果 因为 不 恰当 的 业务 、 或 者 恶意 攻击 持续 高 并 发 地 请 求 某 个 不 
存在 的 数据 ， 由 于 缓存 没有 保存 该 数据 ， 所 有 的 请 求 都 会 落 到 数据 库 
上 ， 会 对 数据 库 造成 很 大 压力 ， 甚 至 骨 溃 。 一 个 简单 的 对 策 是 将 不 存 
在 的 数据 也 缓存 起 来 (其 value 值 为 null) 。 


3. 分 布 式 缓存 架构 


分 布 式 缓存 指 缓存 部 署 在 多 个 服务 器 组 成 的 集群 中 ， 以 集群 方式 
提供 缓存 服务 ， 其 架构 方式 有 两 种 ， 一 种 是 以 JBoss Cache 为 代表 的 需 
要 更 新 同步 的 分 布 式 缓存 ， 一 种 是 以 Memcached 为 代表 的 不 互相 通信 
的 分 布 式 缓存 。 


JBoss Cache 的 分 布 式 缓存 在 集群 中 所 有 服务 器 中 保存 相同 的 缓存 
数据 ， 当 某 台 服务 器 有 缓存 数据 更 新 的 时 候 ， 会 通知 集群 中 其 他 机 器 
更 新 缓存 数据 或 清除 缓存 数据 ， 如 图 4.9 所 示 。JBoss Cache 通 常 将 应 用 
程序 和 缓存 部 署 在 同一 台 服 务 器 上 ， 应 用 程序 可 从 本 地 快速 获取 缓存 
数据 ， 但 是 这 种 方式 市 来 的 问题 是 组 存 数据 的 数量 受 限 于 单一 服务 器 
的 内 存 空 间 ， 而 且 当 集群 规模 较 大 的 时 候 ， 缓 存 更 新 信息 需要 同步 到 
集群 所 有 机 器 ， 其 代价 惊人 。 因 而 这 种 方案 更 多 见于 企业 应 用 系统 
中 ， 而 很 少 在 大 型 网 站 使 用 。 


应 用 服务 器 1 应 用 服务 器 2 应 用 服务 器 3 
应 用 程序 应 用 程序 | 应 用 程序 
一 全 | 
= 一 = 一 二 年 一 EE 
JBoss Cache JBoss Cache [| JBass Cache 


图 4.9 ”需要 更 新 同步 的 JBoss Cache 


大 型 网 站 需要 缓存 的 数据 量 一 般 都 很 上 庞大， 可 能 会 需要 数 TB 的 内 
存 做 缓存 ， 这 时 候 就 需要 另 一 种 分 布 式 缓存 ， 如 图 4.10 所 示 。 
Memcached 采 用 一 种 集中 式 的 缓存 集群 管理 ， 也 被 称 作 互 不 通信 的 分 
布 式 染 构 方 式 。 缓 存 与 应 用 分 离 部署 ， 缓 存 系统 部 署 在 一 组 专门 的 服 
务 器 上 ， 应 用 程序 通过 一 致 性 Hash 等 路 由 算法 选择 缓存 服务 器 远程 访 
问 缓存 数据 ， 缓 存 服务 器 之 间 不 通信 ， 缓 存 集群 的 规模 可 以 很 容易 地 
实现 扩容 ， 具 有 良好 的 可 伸缩 性 。 


应 用 服务 器 1 应 用 服务 器 2 


[lmemcached 
[|] 客户 端 
se 
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Ee memcached 
厂 一 一 J 服务 端 进 程 


图 4.10 不 互相 通信 的 Memcached 


memcached 服务 器 1 


[一 一 memcached 
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Memcached 的 伸缩 性 设计 参考 本 书 第 6 章 内 容 。 
4. Memcached 


Memcached 曾 一 度 是 网 站 分 布 式 缓存 的 代名词 ， 被 大 量 网 站 使 
用 。 其 简单 的 设计 、 优 异 的 性 能 、 互 不 通信 的 服务 器 集群 、 海 量 数据 


可 伸缩 的 架构 令 网 站 以 构 师 们 趋 之 各 警 。 
简单 的 通信 协议 


远程 通信 设计 需要 考虑 两 方面 的 要 素 ， 一 是 通信 协议 ， 即 选择 
TCP 协 议 还 是 UDP 协议 ， 抑 或 HITP 协 议 ; 一 是 通信 序列 化 协议 ， 数 据 
传输 的 两 端 ， 必 须 使 用 彼此 可 识别 的 数据 序列 化 方式 才能 使 通信 得 以 
完成 ， 如 XML、JSON 等 文本 序列 化 协议 ， 或 者 Google Protobuffer 等 二 
进 制 序列 化 协议 。Memcached 使 用 TCP 协 议 (UDP 也 支持 ) 通信 ， 其 
序列 化 协议 则 是 一 套 基 于 文本 的 自 定义 协议 ， 非 常 简单 ， 以 一 个 命令 
关键 字 开 头 ， 后 面 是 一 组 命令 操作 数 。 例 如 读 取 一 个 数据 的 命令 协议 
是 get <key>。 Memcached 以 后 ， 许 多 NoSQL 产 品 都 借鉴 了 或 直接 支持 
这 套 协 议 。 

丰富 的 客户 端 程序 

Memcached 通 信 协 议 非 常 简单 ， 只 要 支持 该 协议 的 客户 端 都 可 以 
和 Memcached 服 务 器 通信 ， 因 此 Memcached 发 展 出 非常 丰富 的 客户 端 
程序 ， 几 乎 支持 所 有 主流 的 网 站 编程 语言 ，Java、C/C 十 十 /C#、Perl、 


Python、PHP、Ruby 等 ， 因 此 在 混合 使 用 多 种 编程 语言 的 网 站 ， 
Memcached 更 是 如 鱼 得 水 。 


高 性 能 的 网 络 通信 


Memcached 服 务 端 通信 模块 基于 Libevent， 一 个 支持 事件 触发 的 网 
络 通信 程序 库 。Libevent 的 设计 和 实现 有 许多 值得 改善 的 地 方 ， 但 它 
在 稳定 的 长 连接 方面 的 表现 却 正 是 Memcached 需 要 的 。 


高 效 的 内 存 管理 


内 存 管理 中 一 个 令 人 头痛 的 问题 就 是 内 存 碎 片 管 理 。 操 作 系统 、 
虚拟 机 垃圾 回收 在 这 方面 想 了 许多 办 法 : 压缩 、 复 制 等 。Memcached 
使 用 了 一 个 非常 简单 的 办 法 固定 空间 分 配 。Memcached 将 内 存 空 
间 分 为 一 组 slab， 每 个 slab 里 又 包含 一 组 chunk， 同 一 个 slab 里 的 每 个 
chunk 的 大 小 是 固定 的 ， 拥 有 相同 大 小 chunk 的 slab 被 组 织 在 一 起 ， 叫 作 
slab_class， 如 图 4.11 所 示 。 存 储 数 据 时 根据 数据 的 Size 大 小 ， 寻 找 一 个 
大 于 Size 的 最 小 chunk 将 数据 写 入 。 这 种 内 存 管理 方式 避免 了 内 存 人 碎片 
管理 的 问题 ， 内 存 的 分 配 和 释放 都 是 以 chunk 为 单位 的 。 和 其 他 缓存 一 
样 ，Memcached 采 用 LRU 算 法 释放 最 近 最 久未 被 访问 的 数据 占用 的 空 
间 ， 释 放 的 chunk 被 标记 为 未 用 ， 等 待 下 一 个 合适 大 小 数据 的 写 入 。 


chunk[1] 


slab_class[m] 


图 4.11 Memcached 内 存 管 理 


当然 这 种 方式 也 会 融 来 内 存 浪费 的 问题 。 数 据 只 能 存 入 一 个 比 它 
大 的 chunk 里 ， 而 一 个 chunk 只 能 存 一 个 数据 ， 其 他 空间 被 浪费 了 。 如 
果 启 动 参数 配置 不 合理 ， 滔 费 会 更 加 惊人 ， 发 现 没有 缓存 多 少数 据 ， 
内 存 空间 束 用 尽 了 。 


互 不 通信 的 服务 器 集群 架构 


如 上 所 述 ， 正 是 这 个 特性 使 得 Memcached 从 JBoss Cache、 
OSCache 等 众多 分 布 式 缓存 产品 中 脱颖而出 ， 满 足 网 站 对 海量 缓存 数 
据 的 需求 。 而 其 客户 端 路 由 算法 一 致 性 Hash 更 成 为 数据 存储 伸缩 性 架 
构 设 计 的 经 典范 式 (参考 本 书 第 6 章 ) 。 事 实 上 ， 正 是 集群 内 服务 器 互 
不 通信 使 得 集群 可 以 做 到 几乎 无 限制 的 线性 伸缩 ， 这 也 正 是 目前 流行 
的 许多 大 数据 技术 的 基本 架构 特点 。 


里 然 近 些 年 许多 NoSQL 产 品 层出不穷 ， 在 数据 持久 化 、 支 持 复杂 
数据 结构 、 甚 至 性 能 方面 有 许多 产品 优 于 Memcached， 但 Memcached 
由 于 其 简单 、 稳 定 、 专 注 的 特点 ， 仍 然 在 分 布 式 缓存 领域 占据 着 重要 
地 位 。 


4.3.2 ”异步 操作 


使 用 消息 队列 将 调用 异步 化 ， 可 改善 网 站 的 扩展 性 (参考 本 书 第 7 
章 内 容 ) 。 事 实 上 ， 使 用 消息 队列 还 可 改善 网 站 系统 的 性 能 ， 如 图 
4.12 和 图 4.13 所 示 。 


了 二 2 
1 发 送 请 求 区 

习 2 保存 数据 一 一 一 > | 
3 接收 响应 党 9 

Sy © |] 


网 站 应 用 服务 器 数据 库 服务 器 


图 4.12 不 使 用 消息 队列 服务 器 
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图 4.13 ”使 用 消息 队列 服务 器 


在 不 使 用 消息 队列 的 情况 下 ， 用 户 的 请 求 数据 直接 写 入 数据 库 ， 
在 高 并 发 的 情况 下 ， 会 对 数据 库 造 成 巨大 的 压力 ， 同 时 也 使 得 响应 延 


述 加 剧 。 在 使 用 消息 队列 后 ， 用 户 请 求 的 数据 发 送 给 消息 队列 后 立即 
返回 ， 再 由 消息 队列 的 消费 者 进程 (通常 情况 下 ， 该 进程 通常 独立 部 
署 在 专门 的 服务 器 集群 上 ) 从 消息 队列 中 获取 数据 ， 有 异步 写 入 数据 
库 。 由 于 消息 队列 服务 器 处 理 速度 远 快 于 数据 库 (消息 队列 服务 器 也 
比 数 据 库 具 有 更 好 的 伸缩 性 ) ， 因 此 用 户 的 响应 延迟 可 得 到 有 效 改 
盖 


呈 O 


消息 队列 具有 很 好 的 削 峰 作用 一 一 即 通过 异步 处 理 ， 将 短 时 间 高 
并 发 产生 的 事务 消息 存储 在 消息 队列 中 ， 从 而 削 平 高 峰 期 的 并 发 事 
务 。 在 电子 商务 网 站 促销 活动 中 ， 合 理 使 用 消息 队列 ， 可 有 效 抵御 促 
销 活动 刚 开 始 大 量 涌 入 的 订单 对 系统 造成 的 冲击 。 如 图 4.14 所 示 。 


负载 压力 个 下 党 汪 胃 


NA 消息 队列 异步 处 理 


时 间 
图 4.14 ”使 用 消息 队列 消除 并 发 访问 高 峰 


需要 注意 的 是 ， 由 于 数据 写 入 消息 队列 后 立即 返回 给 用 户 ， 数 据 
在 后 续 的 业务 校 验 、 写 数据 库 等 操作 可 能 失败 ， 因 此 在 使 用 消息 队列 
进行 业务 异步 处 理 后 ， 需 要 适当 修改 业务 流程 进行 配合 ， 如 订单 提交 
后 ， 订 单数 据 写 入 消息 队列 ， 不 能 立即 返回 用 户 订 单 提交 成 功 ， 需 要 
在 消息 队列 的 订单 消费 者 进程 真正 处 理 完 该 订单 ， 甚 至 商品 出 库 后 ， 
再 通过 电子 邮件 或 MS 消息 通 知 用 户 订 单 成 功 ， 以 免 交 易 纠纷 。 


任何 可 以 晚点 做 的 事情 都 应 该 晚点 再 做 。 


4.3.3 ”使 用 集群 


在 网 站 高 并 发 访问 的 场景 下 ， 使 用 负载 均衡 技术 为 一 个 应 用 构建 
一 个 由 多 台 服 务 器 组 成 的 服务 器 集群 ， 将 并 发 访问 请 求 分 发 到 多 台 服 
务 器 上 处 理 ， 避 免 单一 服务 器 因 负 载 压力 过 大 而 响应 缓慢 ， 使 用 户 请 
求 具 有 更 好 的 响应 延迟 特性 ， 如 图 4.15 所 示 。 


Web 服 务 器 


图 4.15 ”利用 负载 均衡 技术 改善 性 能 


三 合 Web 服 务 器 共同 处 理 来 自用 户 浏 览 器 的 访问 请 求 ， 这 样 每 台 
Web 服 务 器 需要 处 理 的 http 请 求 只 有 总 并 发 请 求 数 的 三 分 之 一 ， 根 据 性 
能 测试 曲线 ， 使 服务 器 的 并 发 请 求 数目 控制 在 最 佳 运行 区 间 ， 获 得 最 
主 的 访问 请 求 延 迟 。 


4.3.4 ”代码 优化 


网 站 的 业务 逻辑 实现 代码 主要 部 署 在 应 用 服务 器 上 ， 需 要 处 理 复 
杂 的 并 发 事务 。 合 理 优化 业务 代码 ， 可 以 很 好 地 改善 网 站 性 能 。 不 同 
编程 语言 的 代码 优化 手段 有 很 多 ， 这 里 我 们 概要 地 关注 比较 重要 的 几 
个 方面 。 


1. 多 线程 


多 用 户 并 发 访问 是 网 站 的 基本 需求 ， 大 型 网 站 的 并 发 用 户 数 会 达 
到 数 万 ， 单 台 服 务 器 的 并 发 用 户 也 会 达到 数 百 。CGI 编 程 时 代 ， 每 个 
用 户 请 求 都 会 创建 一 个 独立 的 系统 进程 去 处 理 。 由 于 线程 比 进程 更 轻 
量 ， 更 少 占 有 系统 资源 ， 切 换代 价 更 小 ， 所 以 目前 主要 的 Web 应 用 服 
务 器 都 采用 多 线程 的 方式 响应 并 发 用 户 请 求 ， 因 此 网 站 开发 天 然 就 是 
多 线程 编程 。 


从 资源 利用 的 角度 看 ， 使 用 多 线程 的 原因 主要 有 两 个 : IO 阻塞 与 
多 CPU。 当 前 线程 进行 IO 处 理 的 时 候 ， 会 被 阻塞 释放 CPU 以 等 待 IO 操 
作 完 成 ， 由 于 IO 操作 (不管 是 磁盘 IO 还 是 网 络 IO) 通常 都 需要 较 长 的 
时 间 ， 这 时 CPU 可 以 调度 其 他 的 线程 进行 处 理 。 前 面 我 们 提 到 ， 理 想 
的 系统 Load 是 既 没有 进程 线程) 等待 也 没有 CPU 空 出 ， 利 用 多 线程 
IO 阻塞 与 执行 交替 进行 ， 可 最 大 限度 地 利用 CPU 资源 。 使 用 多 线程 的 
另 一 个 原因 是 服务 器 有 多 个 CPU ， 在 这 个 连 手机 都 有 四 核 CPU 的 时 
代 ， 除 了 最 低 配 置 的 虚拟 机 ， 一 般 数据 中 心 的 服务 器 至 少 16 核 CPU， 
要 想 最 大 限度 地 使 用 这 些 CPU， 必 须 启动 多 线程 。 


网 站 的 应 用 程序 一 般 都 被 Web 服 务 器 容器 管理 ， 用 户 请 求 的 多 线 
程 也 通常 被 Web 服 务 器 容器 管理 ， 但 不 管 是 Web 容 器 管理 的 线程 ， 还 
是 应 用 程序 自己 创建 的 线程 ， 一 台 服 务 器 上 启动 多 少 线程 合适 呢 ? 假 


设 服务 器 上 执行 的 都 是 相同 类 型 任务 ， 针 对 该 类 任务 启动 的 线程 效 有 
个 简化 的 估算 公式 可 供 参 考 : 


启动 线程 数 = [任务 执行 时 间 / (任务 执行 时 间 (IO 等 待 时 
间 ) ] ] CPU 内 核 数 


最 佳 启动 线程 数 和 CPU 内 核 数 量 成 正比 ， 和 IO 阻塞 时 间 成 反比 。 
如 果 任 务 都 是 CPU 计算 型 任务 ， 那 么 线程 数 最 多 不 超过 CPU 内 核 数 ， 
因为 启动 再 多 线程 ，CPU 也 来 不 及 调度 ; 相反 如 果 是 任务 需要 等 待 磁 
盘 操 作 ， 网 络 响应 ， 那 么 多 启动 线程 有 助 于 提高 任务 并 发 度 ， 提 高 系 
统 吞吐 能 力 ， 改 善 系统 性 能 。 


多 线程 编程 一 个 需要 注意 的 问题 是 线程 安全 问题 ， 即 多 线程 并 发 
对 某 个 资源 进行 修改 ， 导 致 数据 混乱 。 这 也 是 缺乏 经 验 的 网 站 工程 师 
最 容易 犯错 的 地 方 ， 而 线程 安全 Bug 又 难以 测试 和 重 现 ， 网 站 故障 
中 ， 许 多 所 谓 偶然 发 生 的 “灵异 事件 ”都 和 多 绪 程 并 发 问题 有 关 。 对 网 
站 而 言 ， 不 管 有 没有 进行 多 线程 编程 ， 工 程 师 写 的 每 一 行 代码 都 会 被 
多 线程 执行 ， 因 为 用 户 请 求 是 并 发 提交 的 ， 也 就 是 说 ， 所 有 的 资源 
一 一 对 象 、 内 存 、 文 件 、 数 据 库 ， 乃 至 另 一 个 线程 都 可 能 被 多 线程 并 
发 访问 。 

编程 上 ， 解 决 线程 安全 的 主要 手段 有 如 下 几 点 。 

将 对 象 设计 为 无 状态 对 象 : 所 谓 无 状态 对 象 是 指 对 象 本 身 不 存储 
状态 信息 《对 象 无 成 员 变 量 ， 或 者 成 员 变 量 也 是 无 状态 对 象 ) ， 这 样 


多 线程 并 发 访问 的 时 候 融 不 会 出 现状 态 不 一 致 ，Java Web 开 发 中 音 用 
的 Servlet 对 象 就 设计 为 无 状态 对 象 ， 可 以 被 应 用 服务 器 多 线程 并 发 调 


用 处 理 用 户 请 求 。 而 web 开 发 中 常用 的 贫血 模型 对 象 都 是 些 无 状态 对 
象 。 不 过 从 面向 对 象 设计 的 角度 看 ， 无 状态 对 象 是 一 种 不 良 设 计 。 


使 用 局 部 对 象 : 即 在 方法 内 部 创建 对 象 ， 这 些 对 象 会 被 每 个 进入 
该 方法 的 线程 创建 ， 除 非 程 序 有 意识 地 将 这 些 对 象 传递 给 其 他 续 程 ， 
否则 不 会 出 现 对 象 被 多 线程 并 发 访问 的 情形 。 


并 发 访问 资源 时 使 用 锁 :; 即 多 线程 访问 资源 的 时 候 ， 通 过 锁 的 方 
式 使 多 线程 并 发 操作 转化 为 顺序 操作 ， 从 而 避免 资源 被 并 发 修改 。 随 
着 操作 系统 和 编程 语言 的 进步 ， 出 现 各 种 轻 量 级 锁 ， 使 得 运行 期 线程 
获取 锁 和 释放 锁 的 代价 都 变 得 更 小 ， 但 是 锁 导 致 线程 同 步 顺序 执行 ， 

可 能 会 对 系统 性 能 产生 严重 影响 。 


2。 资 源 复 用 


系统 运行 时 ， 要 尽量 减少 那些 开销 很 大 的 系统 资源 的 创建 和 销 
毁 ， 比 如 数据 库 连 接 、 网 络 通信 连 接 、 线 程 、 复 杂 对 象 等 。 从 编程 角 
度 ， 资 源 复 用 主要 有 两 种 模式 : 单 例 (Singleton) 和 对 象 池 《Object 
Pool) 。 


单 例 虽 然 是 GoF 经 典 设计 模式 中 较 多 被 诉 病 的 一 个 模式 ， 但 由 于 
目前 Web 开 发 中 主要 使 用 贫血 模式 ， 从 Service 到 Dao 都 是 些 无 状态 对 
象 ， 无 需 重 复 创 建 ， 使 用 单 例 模式 也 就 自然 而 然 了 。 事 实 上 ，Java 开 
发 常用 的 对 象 容 器 Spring 默认 构造 的 对 象 都 是 单 例 (需要 注意 的 是 
Spring 的 单 例 是 Spring 容器 管理 的 单 例 ， 而 不 是 用 单 例 模式 构造 的 单 
例 ) 。 


对 象 池 模式 通过 复 用 对 象 实 例 ， 减 少 对 象 创 建 和 资产 消耗 。 对 于 
数据 库 连 接 对 象 ， 每 次 创建 连接 ， 数 据 库 服务 端 都 需要 创建 专门 的 资 
源 以 应 对 ， 因 此 频繁 创建 关闭 数据 库 连接 ， 对 数据 库 服 务 器 而 言 是 灾 
难 性 的 ， 同 时 频繁 创建 关闭 连接 也 需要 花费 较 长 的 时 间 。 因 此 在 实践 
中 ， 应 用 程序 的 数据 库 连 接 基 本 都 使 用 连接 闻 (Connection Pool) 的 
方式 。 数 据 库 连接 对 象 创建 好 以 后 ， 将 连接 对 象 放 入 对 象 闻 容 器 中 ， 
应 用 程序 要 连接 的 时 候 ， 就 从 对 象 闻 中 获取 一 个 空 闪 的 连接 使 用 ， 使 
用 完毕 再 将 该 对 象 归还 到 对 象 池 中 即 可 ， 不 需要 创建 新 的 连接 。 


前 面 说 过 ， 对 于 每 个 Web 请 求 (HTTP Request) ，Web 应 用 服务 
器 都 需要 创建 一 个 独立 的 线程 去 处 理 ， 这 方面 ， 应 用 服务 器 也 采用 线 
程 池 (Thread Pool) 的 方式 。 这 些 所 谓 的 连接 池 、 线 程 池 ， 本 质 上 都 
是 对 象 池 ， 即 连接 、 线 程 都 是 对 象 ， 池 管理 方式 也 基本 相同 。 


3。 数 据 结构 


早期 关于 程序 的 一 个 定义 是 ， 程 序 就 是 数据 结构 早 算法 ， 数 据 结 
构 对 于 编程 的 重要 性 不 言 而 喻 。 在 不 同 场景 中 合理 使 用 恰当 的 数据 结 
构 ， 灵 活 组 合 各 种 数据 结构 改善 数据 读 写 和 计算 特性 可 极 大 优化 程序 
的 性 能 。 


前 面 缓存 部 分 已 经 描述 过 Hash 表 的 基本 原理 ，Hash 表 的 读 写 性 能 
在 很 大 程度 上 依赖 HashCode 的 随机 性 ， 即 HashCode 越 随机 散 列 ，Hash 
表 的 冲突 就 越 少 ， 读 写 性 能 也 就 越 高 ， 目 前 比较 好 的 字符 串 Hash 散 列 
算法 有 Time33 算 法 ， 即 对 字符 串 逐 字符 迭代 乘 以 33， 求 得 Hash 值 ， 算 
法 原型 为 : 


hash (i) = hash (i1) * 33 + str[i] 


Time33 虽 然 可 以 较 好 地 解决 冲突 ， 但 是 有 可 能 相似 字符 串 的 
HashCode 也 比较 接近 ， 如 字符 串 “AA” 的 HashCode 是 2210， 字 符 串 
“AB” 的 HashCode 是 2211。 这 在 某 些 应 用 场景 是 不 能 接受 的 ， 这 种 情况 
下 ， 一 个 可 行 的 方案 是 对 字符 串 取 信息 指纹 ， 再 对 信息 指纹 求 
HashCode， 由 于 字符 串 微 小 的 变化 就 可 以 引起 信息 指纹 的 巨大 不 同 ， 
因此 可 以 获得 较 好 的 随机 散 列 ， 如 图 4.16 所 示 。 


MD 2 


图 4.16 ”通过 MD5 计 算 HashCode 
4. 垃圾 回收 


如 果 Web 应 用 运行 在 JVM 等 具有 垃圾 回收 功能 的 环境 中 ， 那 么 垃 
圾 回收 可 能 会 对 系统 的 性 能 特性 产生 巨大 影响 。 理 解 垃圾 回收 机 制 有 
助 于 程序 优化 和 参数 调 优 ， 以 及 编写 内 存 安全 的 代码 。 


以 JVM 为 例 ， 其 内 存 主要 可 划分 为 堆 (heap) 和 堆栈 (stack) 。 
堆栈 用 于 存储 线程 上 下 文 信息 ， 如 方法 参数 、 局 部 变量 等 。 堆 则 是 存 
储 对 象 的 内 存 空间 ， 对 象 的 创建 和 释放 、 垃 圾 回收 就 在 这 里 进行 。 通 
I 周期 的 观察 ， 发 现 大 部 分 对 象 的 生命 周期 都 极其 短暂 ， 

这 部 分 对 象 产生 的 垃圾 应 该 被 更 快 地 收集 ， 以 释放 内 存 ， 这 就 是 JVM 
分 代 垃圾 回收 ， 其 基本 原理 如 图 4.17 所 示 。 


图 4.17 JVM 分 代 垃 圾 回收 机 制 | 


在 JVM 分 代 垃 圾 回收 机 制 中 ， 将 应 用 程序 可 用 的 堆 空 间 分 为 年 轻 
代 (Young Generation) 和 年 老 代 (Old Generation) ， 又 将 年 轻 代 分 为 
Eden 区 (Eden Space) 、From 区 和 To 区 ， 新 建 对 象 总 是 在 Eden 区 中 被 
创建 ， 当 Eden 区 空间 已 满 ， 就 触发 一 次 Young GC (Garbage 
Collection， 垃 圾 回收 ) ， 将 还 被 使 用 的 对 象 复制 到 From 区 ， 这 样 整 个 
Eden 区 都 是 未 被 使 用 的 空间 ， 可 供 继续 创建 对 象 ， 当 Eden 区 再 次 用 
完 ， 再 触发 一 次 Young GC， 将 Eden 区 和 From 区 还 在 被 使 用 的 对 象 复制 
到 To 区 ， 下 一 次 Young GC 则 是 将 Eden 区 和 To 区 还 被 使 用 的 对 象 复 制 到 
From 区 。 因 此 ， 经 过 多 次 Young GC， 某 些 对 象 会 在 From 区 和 To 区 多 
次 复制 ， 如 果 超 过 某 个 阅 值 对 象 还 未 被 释放 ， 则 将 该 对 象 复 制 到 Old 
Generation。 如 果 Old Generation 空 间 也 已 用 完 ， 那 么 就 会 触发 Full 
GC， 即 所 谓 的 全 量 回收 ， 全 量 回 收 会 对 系统 性 能 产生 较 大 影响 ， 因 此 
应 根据 系统 业务 特点 和 对 象 生 命 周 期 ， 合 理 设置 Young Generation 和 
Old Generation 大 小 ， 尽 量 减少 Full GC。 事 实 上 ， 某 些 Web 应 用 在 整个 
运行 期 间 可 以 做 到 从 不 进行 Full GC。 


4.4 ”存储 性 能 优化 


在 网 站 应 用 中 ， 海 量 的 数据 读 写 对 磁盘 访问 造成 巨大 压力 ， 虽 然 
可 以 通过 Cache 解 决 一 部 分 数据 读 压力 ， 但 是 很 多 时 候 ， 磁 盘 仍然 是 系 
统 最 严重 的 瓶颈 。 而 且 磁 盘 中 存储 的 数据 是 网 站 最 重要 的 资产 ， 磁 盘 
的 可 用 性 和 容错 性 也 至 关 重 要 。 


4.4.1 机 械 硬 盘 vs. 固态 硬盘 


机 械 硬 盘 是 目前 最 单 用 的 一 种 硬盘 ， 通 过 马达 驱动 磁头 臂 ， 带 动 
磁头 到 指定 的 磁盘 位 置 访问 数据 ， 由 于 每 次 访问 数据 都 需要 移动 磁头 
臂 ， 因 此 机 械 硬盘 在 数据 连续 访问 (要 访问 的 数据 存储 在 连续 的 磁盘 
空间 上 ) 和 随机 访问 (要 访问 的 数据 存储 在 不 连续 的 磁盘 空间 ) 时 ， 
由 于 移动 磁头 臂 的 次 数 相差 巨大 ， 人 性 能 表现 差别 也 非常 大 。 机 械 硬 盘 
结构 如 图 4.18 所 示 。 
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图 4.18 “机械 硬盘 结构 图 (图 片 来 自 互 联网 ) 


固态 硬盘 又 称 作 SSD 或 Flash 硬 盘 ， 这 种 硬盘 没有 机 械 装 置 ， 数 据 
存储 在 可 持久 记忆 的 硅 晶 体 上 ， 因 此 可 以 像 内 存 一 样 快 速 随 机 访问 。 


而 且 SSD 具 有 更 小 的 功 耗 和 更 少 的 磁盘 震动 与 噪声 。SSD 人 硬盘 如 图 4.19 
所 示 。 


图 4.19 SSD 硬 盘 (图 片 来 自 互 联网 ) 


在 网 站 应 用 中 ， 大 部 分 应 用 访问 数据 都 是 随机 的 ， 这 种 情况 下 
SSD 具 有 更 好 的 性 能 表现 。 但 是 目前 SSD 硬 盘 还 不 太 成 熟 ， 可 靠 性 、 
性 价 比 有 待 提升 ， 因 此 SSD 的 使 用 还 在 摸索 阶段 。 但 是 相信 随 着 SSD 
工艺 水 平 的 提高 ， 逐 步 蔡 代 传 统 机 械 硬盘 是 迟早 的 事 。 


4.4.2 B 十 树 vs. LSM 树 


本 书 前面 提 到 ， 由 于 传统 的 机 械 磁 盘 具 有 快速 顺序 读 写 、 慢 速 随 
机 读 写 的 访问 特性 ， 这 个 特性 对 磁盘 存储 结构 和 算法 的 选择 影响 其 
大 。 


为 了 改善 效 据 访 问 特性 ， 文 件 系统 或 数据 库 系 统 通 单 会 对 数据 排 
序 后 存储 ， 加 快 数据 检索 速度 ， 这 就 需要 保证 数据 在 不 断 更 新 、 插 
入 、 删 除 后 依然 有 序 ， 传 统 关 系数 据 库 的 做 法 是 使 用 B 十 树 ， 如 图 4.20 
所 示 。 


图 4.20 B 十 树 原理 示意 图 


B 十 树 是 一 种 专门 针对 磁盘 存储 而 优化 的 N 叉 排序 树 ， 以 树 节点 为 
单位 存储 在 磁盘 中 ， 从 根 开始 查找 所 需 数据 所 在 的 节点 编号 和 磁盘 位 
置 ， 将 其 加 载 到 内 存 中 然后 继续 查找 ， 直 到 找到 所 需 的 数据 。 


目前 数据 库 多 采用 两 级 索引 的 B 十 树 ， 树 的 层次 最 多 三 层 。 因 此 
可 能 需要 5 次 磁盘 访问 才能 更 新 一 条 记录 (三 次 磁盘 访问 获得 数据 索引 
及 行 ID ， 然 后 再 进行 一 次 数据 文件 读 操作 及 一 次 数据 文件 写 操 作 ) 。 

但 是 由 于 每 次 磁盘 访问 都 是 随机 的 ， 而 传统 机 械 硬 盘 在 数据 随机 
访问 时 性 能 较 差 ， 每 次 数据 访问 都 需要 多 次 访问 磁盘 影响 数据 访问 性 
能 。 

目前 许多 NoSQL 产 品 采 用 LSM 树 作为 主要 数据 结构 ， 如 图 4.21 所 
示 。 
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图 4.21 LSM 树 原理 示意 图 (图 片 来 源 互 联网 ) 


LSM 树 可 以 看 作 是 一 个 N 阶 合并 树 。 数 据 写 操作 (包括 插入 、 修 
改 、 删 除 ) 都 在 内 存 中 进行 ， 并 且 都 会 创建 一 个 新 记录 (修改 会 记录 
新 的 数据 值 ， 而 删除 会 记录 一 个 删除 标志 ) ， 这 些 数据 在 内 存 中 仍然 
还 是 一 棵 排序 树 ， 当 数据 量 超过 设 定 的 内 存 阐 值 后 ， 会 将 这 棵 排序 树 
和 磁盘 上 最 新 的 排序 树 合并 。 当 这 梯 排 序 树 的 数据 量 也 超过 设 定 阐 值 
后 ， 和 磁盘 上 下 一 级 的 排序 树 合并 。 合 并 过 程 中 ， 会 用 最 新 更 新 的 数 
据 覆 盖 旧 的 数据 (或 者 记录 为 不 同 版 本 ) 。 


在 需要 进行 读 操作 时 ， 总 是 从 内 存 中 的 排序 树 开 始 搜索 ， 如 果 没 
有 找到 ， 就 从 磁盘 上 的 排序 树 顺 序 查找 。 


在 LSM 树 上 进行 一 次 数据 更 新 不 需要 磁盘 访问 ， 在 内 存 即 可 完 
成 ， 速 度 远 快 于 B 十 树 。 当 数据 访问 以 写 操 作为 主 ， 而 读 操作 则 集中 
在 最 近 写 入 的 数据 上 时 ， 使 用 LSM 树 可 以 极 大 程度 地 减少 磁盘 的 访问 
次 数 ， 加 快 访问 速度 。 


作为 存储 结构 ，B 十 树 不 是 关系 数据 库 所 独 有 的 ，NoSQL 数 据 库 
也 可 以 使 用 B 十 树 。 同 理 ， 关 系数 据 库 也 可 以 使 用 LSM， 而 且 随 着 
SSD 硬 盘 的 日 趋 成 熟 及 大 容量 持久 存储 的 内 存 技术 的 出 现 ， 相 信 B 十 树 
这 一 “古老 ”的 存储 结构 会 再 次 焕发 青春 。 


4.4.3 RAID vs. HDFS 


RAID (廉价 磁盘 匈 余 阵列 ) 技术 主要 是 为 了 改善 磁盘 的 访问 延 
迟 ， 增 强 磁盘 的 可 用 性 和 容错 能 力 。 目 前 服务 器 级 别 的 计算 机 都 支持 
插入 多 块 磁盘 (8 块 或 者 更 多 ) ， 通 过 使 用 RAID 技 术 ， 实 现 数 据 在 多 
块 磁盘 上 的 并 发 读 写 和 数据 备份 。 


常用 RAID 技 术 有 以 下 几 种 ， 如 图 4.22 所 示 。 
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图 4.22 ”常用 RAID 技 术 原 理 图 
假设 服务 器 有 NN 块 磁盘 。 
RAIDO0 


数据 在 从 内 存 缓冲 区 写 入 磁盘 时 ， 根 据 磁盘 数量 将 数据 分 成 N 
份 ， 这 些 数据 同时 并 发 写 入 N 块 磁盘 ， 使 得 数据 整体 写 入 速度 是 一 块 
磁盘 的 N 倍 。 读 取 时 也 一 样 ， 因 此 RAID0 具 有 极 快 的 数据 读 写 速度 ， 
但 是 RAIDO 不 做 数据 备份 ，N 块 磁盘 中 只 要 有 一 块 损坏 ， 数 据 完整 性 
就 被 破坏 ， 所 有 磁盘 的 数据 都 会 损坏 。 


RAID1 


数据 在 写 入 磁盘 时 ， 将 一 份 数据 同时 写 入 两 块 磁盘 ， 这 样 任何 一 
块 磁盘 损坏 都 不 会 导致 数据 丢失 ， 插 入 一 块 新 磁盘 就 可 以 通过 复制 数 


据 的 方式 自动 修复 ， 具 有 极 高 的 可 靠 性 。 
RAID10 


结合 RAID0 和 RAID1 两 种 方案 ， 将 所 有 磁盘 平均 分 成 两 份 ， 数 气 
同时 在 两 份 磁盘 写 入 ， 相 当 于 RAID1， 但 是 在 每 一 份 磁 盘 里 面 的 N /2 
块 磁盘 上 ， 利 用 RAID0 技 术 并 发 读 写 ， 既 提高 可 靠 性 又 改善 性 能 ， 不 
过 RAID10 的 磁盘 利用 率 较 低 ， 有 一 半 的 磁盘 用 来 写 备 份 数 据 。 


RAID3 


一 般 情况 下 ， 一 台 服 务 器 上 不 会 出 现 同时 损坏 两 块 磁盘 的 情况 ， 
在 只 损坏 一 块 磁盘 的 情况 下 ， 如 果 能 利用 其 他 磁盘 的 数据 恢复 损坏 磁 
盘 的 数据 ， 这 样 在 保证 可 靠 性 和 性 能 的 同时 ， 磁 盘 利用 率 也 得 到 大 幅 
提升 。 


在 数据 写 入 磁盘 的 时 候 ， 将 数据 分 成 N -1 份 ， 并 发 写 入 N -1 块 磁 
盘 ， 并 在 第 N 块 磁盘 记录 校 验 数据 ， 任 何 一 块 磁盘 损坏 (包括 校 验 数 
据 磁 盘 ) ， 都 可 以 利用 其 他 N -1 块 磁盘 的 数据 修复 。 


但 是 在 数据 修改 较 多 的 场景 中 ， 修 改 任何 磁盘 数据 都 会 导致 第 N 
块 磁盘 重 写 校 验 数据 ， 频 繁 瑟 入 的 后 果 是 第 N 块 磁盘 比 其 他 磁盘 容易 
损坏 ， 需 要 频繁 更 换 ， 所 以 RAID3 很 少 在 实践 中 使 用 。 


RAID5 
相 比 RAID3， 方 案 RAID5 被 更 多 地 使 用 。 


RAID5 和 RAID3 很 相似 ， 但 是 校 验 数据 不 是 写 入 第 N 块 磁盘 ， 而 
是 螺旋 式 地 写 入 所 有 磁盘 中 。 这 样 校 验 数据 的 修改 也 被 平均 到 所 有 磁 


盘 上 ， 避 免 RAID3 频 繁 写 坏 一 块 磁盘 的 情况 。 
RAID6 


如 果 数 据 需要 很 高 的 可 靠 性 ， 在 出 现 同时 损坏 两 块 磁盘 的 情况 下 
《或 者 运 维 管理 水 平 比较 落后 ， 坏 了 一 块 磁盘 但 是 迟 迟 没有 更 换 ， 导 
致 又 坏 了 一 块 磁盘 ) ， 仍 然 需要 修复 数据 ， 这 时 候 可 以 使 用 RAID6。 


RAID6 和 RAID5 类 似 ， 但 是 数据 只 写 入 N -2 块 磁盘 ， 并 螺旋 式 地 
在 两 块 磁盘 中 写 入 校 验 信息 (使 用 不 同 算法 生成 ) 。 


在 相同 磁盘 数目 (N ) 的 情况 下 ， 各 种 RAID 技 术 的 比较 如 表 4.3 
所 示 。 


表 4.3” 几 种 RAID 技 术 比 较 


RAID 类 型 
RAIDO 
RAID] 


磁盘 利用 率 
100% 


RAID 技 术 可 以 通过 硬件 实现 ， 比 如 专用 的 RAID 卡 或 者 主板 直接 
支持 ， 也 可 以 通过 软件 实现 。RAID 技 术 在 传统 关系 数据 库 及 文件 系统 
中 应 用 比较 广泛 ， 但 是 在 大 型 网 站 比较 喜欢 使 用 的 NoSQL ， 以 及 分 布 
式 文 件 系统 中 ，RAID 技 术 却 遭 到 冷落 。 


例如 在 HDFS (Hadoop 分 布 式 文件 系统 ) 中 ， 系 统 在 整个 存储 集 
群 的 多 台 服 务 器 上 进行 数据 并 发 读 写 和 备份 ， 可 以 看 作 在 服务 器 集群 
规模 上 实现 了 类 似 RAID 的 功能 ， 因 此 不 需要 磁盘 RAID。 


HDFS 以 块 (Block) 为 单位 管理 文件 内 容 ， 一 个 文件 被 分 割 成 若 
干 个 Block， 当 应 用 程序 写 文件 时 ， 每 写 完 一 个 Block，HDFS 就 将 其 自 
动 复制 到 另外 两 台 机 器 上 ， 保 证 每 个 Block 有 三 个 副本 ， 即 使 有 两 台 服 
务 器 宕 机 ， 数 据 依然 可 以 访问 ， 相 当 于 实现 了 RAID1 的 数据 复制 功 


和 已 
月 Co 


当 对 文件 进行 处 理 计 算 时 ， 通 过 MapReduce 并 发 计算 任务 框架 ， 
可 以 启动 多 个 计算 子 任 务 (MapReduce Task) ， 同 时 读 取 文 件 的 多 个 
Block， 并 发 处 理 ， 相 当 于 实现 了 RAID0 的 并 发 访问 功能 。 


HDFS 架 构 如 图 4.23 所 示 。 


NameNode 
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图 4.23 ”HDFS 架 构 原 理 图 


在 HDFS 中 有 两 种 重要 的 服务 器 角色 : NameNode (名 字 服 务 节 
点 ) 和 DataNode (数据 存储 节点 ) 。NameNode 在 整个 HDFS 中 只 部 署 
一 个 实例 ， 提 供 元 数据 服务 ， 相 当 于 操作 系统 中 的 文件 分 配 表 

(FAT) ， 管 理 文件 名 Block 的 分 配 ， 维 护 整 个 文件 系统 的 目录 树 结 


构 。DataNode 则 部 署 在 HDFS 集 群 中 其 他 所 有 服务 器 上 ， 提 供 真正 的 
数据 存储 服务 。 


和 操作 系统 一 样 ，HDFS 对 数据 存储 空间 的 管理 以 数据 块 
(Block) 为 单位 ， 只 是 比 操作 系统 中 的 数据 块 (512 字 节 ) 要 大 得 
多 ， 默 认为 64MB。HDFS 将 DataNode 上 的 磁盘 空间 分 成 N 个 这 样 的 
块 ， 供 应 用 程序 使 用 。 


应 用 程序 (Client) 需要 写 文件 时 ， 首 先 访问 NameNode， 请 求 分 
配 数 据 块 ，NameNode 根 据 管 理 的 DataNode 服 务 器 的 磁盘 空间 ， 按 照 
一 定 的 负载 均衡 策略 ， 分 配 若 干 数据 块 供 Client 使 用 。 


当 Client 写 完 一 个 数据 块 时 ，HDFS 会 将 这 个 数据 块 再 复制 两 份 存 
储 在 其 他 DataNode 服 务 器 上 ，HDFS 默 认同 一 份 数 据 有 三 个 副本 ， 保 
证 数据 可 靠 性 。 因 此 在 HDFS 中 ， 即 使 DataNode 服 务 器 有 多 块 磁盘 ， 
也 不 需要 使 用 RAID 进 行 数据 备份 ， 而 是 在 整个 集群 上 进行 数据 复制 ， 
而 且 系 统一 旦 发 现 某 台 服务 器 宕 机 ， 会 自动 利用 其 他 机 器 上 的 数据 将 
这 台 服 务 器 上 存储 的 数据 块 自动 再 备份 一 份 ， 从 而 获得 更 高 的 数据 可 
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HDFS 配 合 MapReduce 等 并 行 计算 框架 进行 大 数据 处 理 时 ， 可 以 在 
整个 集群 上 并 发 读 写 访问 所 有 的 磁盘 ， 无 需 RAID 支 持 。 


4.5 “小结 


网 站 性 能 优化 技术 是 在 网 站 性 能 遇 到 问题 时 的 解决 方案 。 而 网 站 
的 性 能 问题 很 多 是 在 用 户 高 并 发 访问 时 产生 的 ， 所 以 网 站 性 能 优化 的 
主要 工作 是 改善 高 并 发 用 户 访问 情况 下 的 网 站 响应 速度 。 本 章 开 篇 所 
举 的 例子 ， 当 老板 说 “我 们 要 改善 网 站 性 能 ”的 时 候 ， 他 期 望 的 是 在 A 
方案 的 基础 上 ， 不 管 是 100 个 并 发 访问 还 是 200 个 并 发 访问 ， 响 应 时 间 
都 能 达到 1 秒 。 而 架构 师 能 做 到 的 ， 则 是 利用 分 布 式 的 方案 改善 网 站 并 
发 特性 ， 由 于 分 布 式 不 可 避免 地 会 带 来 架构 复杂 、 网 络 通信 延迟 等 问 
题 ， 所 以 最 终 设计 出 来 的 可 能 是 B 方 案 : 缩短 高 并 发 访问 响应 延迟 的 
同时 ， 却 延长 了 原来 低 并 发 访问 时 的 响应 延迟 。 架 构 师 对 这 种 可 能 性 
要 心中 有 数 ， 合 理 调整 相关 各 方 对 性 能 优化 的 心理 预期 。 


网 站 性 能 对 最 终 用 户 而 言 是 一 种 主观 感受 ， 性 能 优化 的 最 终 目 的 
就 是 改善 用 户 的 体验 ， 使 他 们 感觉 网 站 很 快 。 离 开 这 个 目的 ， 追 求 技 
术 上 的 所 谓 高 性 能 ， 是 舍 本 逐 末 ， 没 有 多 大 意义 。 而 用 户 体验 的 快 或 
是 慢 ， 可 以 通过 技术 手段 改善 ， 也 可 以 通过 优化 交互 体验 改善 。 


即使 在 技术 层面 ， 性 能 优化 也 需要 全 面 考虑 ， 综 合 权 衡 : 性 能 提 
升 一 倍 ， 但 服务 器 数量 也 需要 增加 一 倍 ; 或 者 响应 时 间 缩 得， 同时 数 
据 一 致 性 也 下 降 ， 这 样 的 优化 是 否 可 以 接受 ?这 类 问题 的 答案 不 是 技 
术 团 队 能 回 爸 的。 归根 结 底 ， 技 术 是 为 业务 服务 的 ， 技 术 选 型 和 架构 
决策 依赖 业务 规划 乃至 企业 战略 规划 ， 离 开业 务 发 展 的 支撑 和 驱动 ， 
技术 走 不 远 ， 甚 至 还 会 迷路 。 


前 沿 技术 总 是 出 现在 前 沿 业务 领域 。 近 几 年 ， 以 Google 
为 首 的 互联 网 企业 领跑 IT 前 沿 技 术 潮流 ， 是 因为 互联 网 企业 
的 业务 发 展 远 超 传统 IT 企业 领域 ， 面 临 更 多 挑战 ， 对 IT 系统 
提出 了 更 高 的 要 求 。 


新 技术 的 出 现 又 会 驱动 企业 开展 新 的 业务 。 亚 马 逊 等 互 
联网 公司 利用 自己 的 技术 优势 进军 企业 级 市 场 ， 以 技术 驱动 
业务 ， 开 展 云 计算 、SaaS 等 新 兴业 务 ， 了 逐步 蚕食 IBM、 
HP、Oracle、 微 软 等 传统 软件 巨头 的 市 场 。 


5 万 无 一 失 : 网 站 的 高 可 用 架构 


2011 年 4 月 12 日 ， 亚 马 逊 云 计 算 服 务 EC2 (Elastic Computer 
Cloud) 发 生 故 障 ， 其 ESB (Elastic Block Storage) 服务 不 可 用 ， 故 障 
持续 了 数 天 ， 最 终 还 是 有 部 分 数据 未 能 恢复 。 这 一 故障 导致 美国 许多 
使 用 亚马逊 云 服 务 的 知名 网 站 (如 : Foursquare，Quora) 受到 影响 ， 
并 引发 了 人 们 对 使 用 云 计 算 安 全 性 、 可 靠 性 的 大 规模 讨论 。 


2010 年 1 月 12 日 ， 百 度 被 黑客 攻击 ， 其 DNS 域名 被 劫持 ， 导 致 百度 


全 站 长 达 数 小 时 不 可 访问 。 该 事件 一 时 成 为 新 闻 焦 点 ， 各 种 媒体 争 相 
报道 。 


网 站 的 可 用 性 (Availability) 描述 网 站 可 有 效 访 问 的 特性 (不 同 
于 另 一 个 网 站 运营 指标 : Usability， 通 常 也 被 译作 可 用 性 ， 但 是 后 者 
强调 的 是 网 站 的 有 用 性 ， 即 对 最 终 用 户 的 使 用 价值 ) ， 相 比 于 网 站 的 
其 他 非 功能 特性 ， 网 站 的 可 用 性 更 牵动 人 们 的 神经 ， 大 型 网 站 的 不 可 
用 事故 直接 影响 公司 形象 和 利益 ， 许 多 互联 网 公司 都 将 网 站 可 用 性 列 
入 工程 师 的 绩效 考核 ， 与 奖金 升迁 等 利益 挂钩。 


5.1 ”网 站 可 用 性 的 度量 与 考核 


网 站 的 页 面 能 完整 呈现 在 最 终 用 户 面 前 ， 需 要 经 过 很 多 个 环节 ， 
任何 一 个 环节 出 了 问题 ， 都 可 能 导致 网 站 页 面 不 可 访问 。DNS 会 被 劫 
持 、CDN 服 务 可 能 会 挂 护 、 网 站 服务 器 可 能 会 宕 机 、 网 络 交换 机 可 能 
会 失效 、 硬 盘 会 损坏 、 网 卡 会 松 掉 、 甚 至 机 房 会 停电 、 空 调 会 失灵 、 
程序 会 有 Bug、 黑 客 会 攻击 、 促 销 会 引 来 大 量 访问 、 第 三 方 合 作 伙伴 
的 服务 会 不 可 用 .……. 要 保证 一 个 网 站 永远 完全 可 用 几乎 是 一 件 不 可 能 
完成 的 使 命 。 


5.1.1 网 站 可 用 性 度量 


网 站 不 可 用 也 被 称 作 网 站 故障 ， 业 界 通常 用 多 少 个 9 来 衡量 网 站 的 
可 用 性 ， 如 QQ 的 可 用 性 是 4 个 9， 即 QQ 服务 99.99% 可 用 ， 这 意味 着 
QQ 服务 要 保证 其 在 所 有 运行 时 间 中 ， 只 有 0.01% 的 时 间 不 可 用 ， 也 就 
是 一 年 中 大 约 最 多 53 分 钟 不 可 用 。 


网 站 不 可 用 时 间 (故障 时 间 ) 三 故障 修复 时 间 点 网 故障 发 现 〈 报 
告 ) 时 间 点 


网 站 年 度 可 用 性 指标 = (11 网 站 不 可 用 时 间 / 年 度 总 时 间 ) 年 
100% 


对 于 大 多 数 网 站 而 言 ，2 个 9 是 基本 可 用 ， 网 站 年 度 不 可 用 时 间 小 \ 
于 88 小 时 ; 3 个 9 是 较 高 可 用 ， 网 站 年 度 不 可 用 时 间 小 于 9 小 时 ; 4 个 9 是 
具有 自动 恢复 能 力 的 高 可 用 ， 网 站 年 度 不 可 用 时 间 小 于 53 分 钟 ;5 个 9 
是 极 高 可 用 性 ， 网 站 年 度 不 可 用 时 间 小 于 5 分 钟 。 


由 于 可 用 性 影响 因素 很 多 ， 对 于 网 站 整体 而 言 ， 达 到 4 个 9， 旋 至 5 
个 9 的 可 用 性 ， 除 了 过 硬 的 技术 、 大 量 的 设备 资金 投入 和 工程 师 的 责任 
心 ， 还 要 有 个 好 运气 。 


常 使 用 Twitter 的 用 户 或 多 或 少 遇 到 过 那个 著名 的 服务 不 可 用 的 鲸 
鱼 页 面 ， 事实 上 上 ， Twitter 网 站 的 可 用 性 不 足 2 个 9。 
5.1.2 ”网 站 可 用 性 考核 


可 用 性 指标 是 网 站 架构 设计 的 重要 指标 ， 对 外 是 服务 承诺 ， 对 内 
是 考核 指标 。 从 管理 层面 ， 可 用 性 指标 是 网 站 或 者 产品 的 整体 考核 指 
标 ， 具 体 到 每 个 工程 师 的 考核 ， 更 多 的 是 使 用 故障 分 。 


所 请 故障 分 是 指 对 网 站 故障 进行 分 类 加 权 计 算 故 障 责任 的 方法 。 
表 5.1 为 某 网 站 故障 分 类 权重 表 。 


表 5.1 ”网 站 故障 分 类 权重 表示 例 


故障 分 的 计算 公式 为 : 
故障 分 三 故障 时 间 (分 钟 ) 《故障 权重 
在 年 初 或 者 考核 季度 的 开始 ， 会 根据 网 站 产品 的 可 用 性 指标 计算 
总 的 故障 分 ， 然 后 根据 团队 和 个 人 的 职责 角色 分 摊 故 障 分 ， 这 个 可 用 


性 指标 和 故障 分 是 管理 预期 。 在 实际 发 生 故 障 的 时 候 ， 根 据 故障 分 类 
和 责任 划分 将 故障 产生 的 故障 分 分 配给 责任 者 承担 。 等 年 末 或 者 考核 


季度 末 的 时 候 ， 个 人 及 团队 实际 承担 的 故障 分 如 果 超 过 了 年 初 分 摊 的 
故障 分 ， 绩 效 考 核 就 会 受到 影响 。 


一 个 简化 的 故障 处 理 流程 如 图 5.1 所 示 。 


容 服 报告 故障 
或 
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图 5.1 网 站 故障 处 理 流程 示例 


有 时 候 一 个 故障 责任 可 能 由 多 个 部 门 或 团队 来 承担 ， 故 障 分 也 会 
相应 按 责任 分 摊 到 不 同 的 团队 和 个 人 。 


不 同 于 其 他 架构 指标 ， 网 站 可 用 性 更 加 看 得 见 摸 得 着 ， 跟 技术 、 
运营 、 相 关 各 方 的 绩效 考核 息息相关 ， 因 此 在 架构 设计 与 评审 会 议 
上 ， 关 于 系统 可 用 性 的 讨论 与 争执 总 是 最 花费 时 间 与 精力 的 部 分 。 


当然 ， 不 同 的 公司 有 不 同 的 企业 文化 和 市 场 策略 ， 这 些 因 素 也 会 
ye e 构 决策 ， 案 尚 创新 和 风险 的 企业 会 对 可 用 性 要 
求 稍 低 一 些 ; 业务 快速 增长 的 网 站 忙于 应 对 指数 级 增长 的 用 户 ， 也 会 
降低 可 用 性 的 标准 ; 服务 于 收费 用 户 的 网 站 则 会 比 服务 于 免费 用 户 的 
网 站 对 可 用 性 更 加 敏感 ， 服 务 不 可 用 或 天 键 用 户 数据 丢失 可 能 会 导 至 
收费 用 户 的 投诉 甚至 引 来 官司 。 


5.2 ”高 可 用 的 网 站 架构 


通常 企业 级 应 用 系统 为 提高 系统 可 用 性 ， 会 采用 较 昂贵 的 软 硬 件 
设备 ， 如 IBM 的 小 型 机 乃至 中 型 机 大 型 机 及 专 有 操作 系统 、Oracle 数 
据 库 、EMC 存 储 设备 等 。 互 联网 公司 更 多 地 采用 PC 级 服务 器 、 开 源 的 
数据 库 和 操作 系统 ， 这 些 廉价 的 设备 在 节约 成 本 的 同时 也 降低 了 可 用 
性 ， 特 别 是 服务 器 硬件 设备 ， 低 价 的 商业 级 服务 器 一 年 宕 机 一 次 是 一 
个 大 概率 事件 ， 而 那些 高 强度 频繁 读 写 的 普通 硬盘 ， 损 坏 的 概率 则 要 


更 高 一 些 。 


既然 硬件 故障 是 常态 ， 网 站 的 高 可 用 架构 设计 的 主要 目的 就 是 保 
证 服务 器 硬件 故障 时 服务 依然 可 用 、 数 据 依 然 保存 并 能 够 被 访问 。 


实现 上 述 高 可 用 架构 的 主要 手段 是 数据 和 服务 的 元 余 备份 及 失效 
转移 ， 一 旦 某 些 服务 器 宕 机 ， 就 将 服务 切换 到 其 他 可 用 的 服务 器 上 ， 
如 果 磁 盘 损 坏 ， 则 从 备份 的 磁盘 读 取 数据 。 


一 个 典型 的 网 站 设计 通 党 体 循 如 图 5.2 所 示 的 基本 分 层 染 构 模 型 。 


图 5.2 ”网 站 染 构 基本 分 层 模 型 


典型 的 分 层 模 型 是 三 层 ， 即 应 用 层 、 服 务 层 、 数 据 层 ; 各 层 之 间 
具有 相对 独立 性 ， 应 用 层 主 要 负责 具体 业务 逻辑 处 理 ; 服务 层 负 责 提 


供 可 复 用 的 服务 ; 数据 层 负责 数据 的 存储 与 访问 。 中 小 型 网 站 在 具体 
部 署 时 ， 通 常 将 应 用 层 和 服务 层 部 署 在 一 起 ， 而 数据 层 则 另外 部 署 ， 
如 图 5.3 所 示 (事实 上 ， 这 也 是 网 站 架构 演化 的 第 一 步 ) 。 


We 应 用 服务 器 数据 库 服务 器 
用 户 浏览 器 (应 用 层 & 服 务 层 ) (数据 层 ) 


图 5.3 ”应 用 和 数据 分 离 部 署 的 网 站 架构 


在 复杂 的 大 型 网 站 架构 中 ， 划 分 的 粒度 会 更 小 、 更 详细 ， 结 构 更 
加 复杂 ， 服 务 器 规模 更 加 庞大 ， 但 通常 还 是 能 够 把 这 些 服务 器 划分 到 
这 三 层 中 。 如 图 5.4 所 示 。 


应 用 层 


服务 层 


文件 缕 存 搜索 
服务 服务 服务 


图 5.4 ”分 层 后 按 模 块 分 割 的 网 站 架构 模型 


不 同 的 业务 产品 会 部 署 在 不 同 的 服务 器 集群 上 ， 如 某 网 站 的 文 
库 、 贴 吧 、 百 科 等 属于 不 同 的 产品 ， 部 署 在 各 自 独 立 的 服务 器 集群 
上 ， 互 不 相干 。 这 些 产品 又 会 依赖 一 些 共 同 的 复 用 业务 ， 如 注册 登录 
服务 、Session 管 理 服 务 、 账 户 管理 服务 等 ， 这 些 可 复 用 的 业务 服务 也 
各 自 部 署 在 独立 的 服务 器 集群 上 。 至 于 数据 层 ， 数 据 库 服务 、 文 件 服 
务 、 缓 存 服 务 、 搜 索 服 务 等 数据 存储 与 访问 服务 都 部 署 在 各 自 独 立 的 
服务 器 集群 上 。 


大 型 网 站 的 分 层 架 构 及 物理 服务 器 的 分 布 式 部 署 使 得 位 
于 不 同 层次 的 服务 器 具有 不 同 的 可 用 性 特点 。 关 闭 服务 或 者 
服务 器 宕 机 时 产生 的 影响 也 不 相同 ， 高 可 用 的 解决 方案 也 差 
异 甚 大 。 


位 于 应 用 层 的 服务 器 通常 为 了 应 对 高 并 发 的 访问 请 求 ， 会 通过 负 
载 均衡 设备 将 一 组 服务 器 组 成 一 个 集群 共同 对 外 提供 服务 ， 当 负载 均 
衡 设 备 通过 心跳 检测 等 手段 监控 到 某 台 应 用 服务 器 不 可 用 时 ， 就 将 其 
从 集群 列表 中 剔除 ， 并 将 请 求 分 发 到 集群 中 其 他 可 用 的 服务 器 上 ， 使 
整个 集群 保持 可 用 ， 从 而 实现 应 用 高 可 用 。 


位 于 服务 层 的 服务 器 情况 和 应 用 层 的 服务 器 类 似 ， 也 是 通过 集群 
方式 实现 高 可 用 ， 只 是 这 些 服务 器 被 应 用 层 通 过 分 布 式 服务 调用 框架 
访问 ， 分 布 式 服务 调用 框架 会 在 应 用 层 客 户 端 程序 中 实现 软件 负载 均 
衡 ， 并 通过 服务 注册 中 心 对 提供 服务 的 服务 器 进行 心跳 检测 ， 发 现 有 
服务 不 可 用 ， 了 立即 通知 客户 端 程 序 修 改 服务 访问 列表 ， 别 除 不 可 用 的 
服务 器 。 


位 于 数据 层 的 服务 器 情况 比较 特殊 ， 数 据 服务 器 上 存储 着 数据 ， 
为 了 保证 服务 器 宕 机 时 数据 不 丢失 ， 数 据 访 问 服务 不 中 断 ， 需 要 在 数 
据 写 入 时 进行 数据 同步 复制 ， 将 数据 写 入 多 台 服 务 器 上 ， 实 现 数据 元 
余 备 份 。 当 数据 服务 器 宕 机 时 ， 应 用 程序 将 访问 切换 到 有 备份 数据 的 
服务 器 上 。 


网 站 升级 的 频率 一 般 都 非常 高 ， 大 型 网 站 一 周 发 布 一 次 ， 中 小 型 
网 站 一 天 发 布 几 次 。 每 次 网 站 发 布 都 需要 关闭 服务 ， 重 新 部 署 系统 ， 
整个 过 程 相当 于 服务 器 宕 机 。 因 此 网 站 的 可 用 性 架构 设计 不 但 要 考虑 
实际 的 硬件 故障 引起 的 宕 机 ， 还 要 考虑 网 站 升级 发 布 引起 的 宕 机 ， 而 
后 者 更 加 频繁 ， 不 能 因为 系统 可 以 接受 偶尔 的 停机 故障 束 降 低 可 用 性 
设计 的 标准 。 


5.3 ”高 可 用 的 应 用 


应 用 层 主要 处 理 网 站 应 用 的 业务 人 逻辑， 因此 有 时 也 称 作 业务 逻辑 
层 ， 应 用 的 一 个 显著 特点 是 应 用 的 无 状态 性 。 


所 谓 无 状态 的 应 用 是 指 应 用 服务 器 不 保存 业务 的 上 下 文 信息 ， 而 
仅 根 据 每 次 请 求 提交 的 数据 进行 相应 的 业务 逻辑 处 理 ， 多 个 服务 实例 
(服务 器 ) 之 间 完 全 对 等 ， 请 求 提交 到 任意 服务 器 ， 处 理 结果 都 是 完 
全 一 样 的 。 


5.3.1 通过 负载 均衡 进行 无 状态 服务 的 失效 转移 


不 保存 状态 的 应 用 给 高 可 用 的 架构 设计 膏 来 了 巨大 便利 ， 既 然 服 
务 器 不 保存 请 求 的 状态 ， 那 么 所 有 的 服务 器 完全 对 等 ， 当 任意 一 台 或 
多 台 服 务 器 宕 机 ， 请 求 提 交 给 集群 中 其 他 任意 一 台 可 用 机 器 处 理 ， 这 
样 对 终端 用 户 而 言 ， 请 求 总 是 能 够 成 功 的 ， 整 个 系统 依然 可 用 。 对 于 
应 用 服务 器 集群 ， 实 现 这 种 服务 器 可 用 状态 实时 监测 、 自 动 转移 失败 
任务 的 机 制 是 负载 均衡 。 


负载 均衡 ， 顾 名 思 义 ， 主 要 使 用 在 业务 量 和 数据 量 较 高 的 情况 
下 ， 当 单 台 服务 器 不 足以 承担 所 有 的 负载 压力 时 ， 通 过 负载 均衡 手 
段 ， 将 流量 和 数据 分 摊 到 一 个 集群 组 成 的 多 台 服 务 器 上 ， 以 提高 整体 
的 负载 处 理 能 力 。 目 前 ， 不 管 是 开源 免费 的 负载 均衡 软件 还 是 昂贵 的 
负载 均衡 硬件 ， 都 提供 失效 转移 功能 。 在 网 站 应 用 中 ， 当 集群 中 的 服 
务 是 无 状态 对 等 时 ， 负 载 均 衡 可 以 起 到 事实 上 高 可 用 的 作用 ， 如 图 5.5 
所 示 。 


Web 服 务 器 
集群 


避 用 户 发 起 访问 请 求 


用 户 浏览 器 


图 5.5 利用 负载 均衡 服务 器 实现 高 可 用 的 应 用 服务 


当 Web 服 务 器 集群 中 的 服务 器 都 可 用 时 ， 负 载 均 衡 服务 器 会 把 用 
户 发 送 的 访问 请 求 分 发 到 任意 一 台 服务 器 上 进行 处 理 ， 而 当 服 务 器 
10.0.0.1 宕 机 时 ， 负 载 均衡 服务 器 通过 心跳 检测 机 制 发 现 该 服务 器 失去 
响应 ， 就 会 把 它 从 服务 器 列表 中 删除 ， 而 将 请 求 发 送 到 其 他 服务 器 
上 ， 这 些 服务 器 是 完全 一 样 的 ， 请 求 在 任何 一 台 服 务 器 中 处理 都 不 会 
影响 最 终 的 结果 。 


由 于 负载 均衡 在 应 用 层 实 际 上 起 到 了 系统 高 可 用 的 作用 ， 因 此 即 
使 某 个 应 用 访问 量 非常 少 ， 只 用 一 台 服 务 器 提供 服务 就 绰绰有余 ， 但 
如 果 需 要 保证 该 服务 高 可 用 ， 也 必须 至 少 部 署 两 台 服 务 器 ， 使 用 负载 
均衡 技术 构建 一 个 小 型 的 集群 。 


5.3.2 ”应 用 服务 器 集群 的 Session 管 理 


应 用 服务 器 的 高 可 用 架构 设计 主要 基于 服务 无 状态 这 一 特性 ， 但 
是 事实 上 ， 业 务 总 是 有 状态 的 ， 在 交易 类 的 电子 商务 网 站 ， 需 要 有 购 
物 车 记录 用 户 的 购买 信息 ， 用 户 每 次 购买 请 求 都 是 向 购物 车 中 增加 商 


品 ; 在 社交 类 的 网 站 中 ， 需 要 记录 用 户 的 当前 登录 状态 、 最 新 发 布 的 
消息 及 好 友 状 态 等 ， 用 户 每 次 刷新 页 面 都 需要 更 新 这 些 信息 。 


Web 应 用 中 将 这 些 多 次 请 求 修改 使 用 的 上 下 文 对 象 称 作 会 话 
(Session) ， 单 机 情况 下 ，Session 可 由 部 署 在 服务 器 上 的 Web 容 器 
(如 JBoss) 管理 。 在 使 用 负载 均衡 的 集群 环境 中 ， 由 于 负载 均衡 服务 

器 可 能 会 将 请 求 分 发 到 集群 任何 一 台 应 用 服务 器 上 ， 所 以 保证 每 次 请 
求 依 然 能 够 获得 正确 的 Session 比 单机 时 要 复杂 很 多 。 


集群 环境 下 ，Session 管 理 主要 有 以 下 几 种 手段 。 
1。Session 复 制 


Session 复 制 是 早期 企业 应 用 系统 使 用 较 多 的 一 种 服务 器 集群 
Session 管 理 机 制 。 应 用 服务 器 开启 Web 容 器 的 Session 复 制 功能 ， 在 集 
群 中 的 几 台 服务 器 之 间 同 步 Session 对 象 ， 使 得 每 台 服 务 器 上 都 保存 所 
有 用 户 的 Session 人 信息， 这样 任 何 一 台 机 器 宕 机 都 不 会 导致 Session 数 据 
的 丢失 ， 而 服务 器 使 用 Session 时 ， 也 只 需要 在 本 机 获取 即 可 。 如 图 5.6 
所 示 。 
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5.6 ”使 用 Session 复 制 实现 应 用 服务 器 共享 Session 


这 种 方案 虽然 简单 ， 从 本 机 读 取 Session 信 息 也 很 快速 ， 但 只 能 使 
用 在 集群 规模 比较 小 的 情况 下 。 当 集群 规模 较 大 时 ， 集 群 服 务 器 间 需 
要 大 量 的 通信 进行 Session 复 制 ， 占 用 服务 器 和 网 络 的 大 量 资源 ， 系 统 
不 堪 负 担 。 而 且 由 于 所 有 用 户 的 Session 信 息 在 每 台 服 务 器 上 都 有 备 
份 ， 在 大 量 用 户 访 问 的 情况 下 ， 甚 至 会 出 现 服务 器 内 存 不 够 Session 使 
用 的 情况 。 


而 大 型 网 站 的 核心 应 用 集群 就 是 数 千 台 服务 器 ， 同 时 在 线 用 户 可 
达 千 万 ， 因 此 并 不 适用 这 种 方案 。 
2 。Session 绑 定 


Session 绑 定 可 以 利用 负载 均衡 的 产地 址 Hash 算 法 实现 ， 负 载 均衡 
服务 器 总 是 将 来 源 于 同一 IP 的 请 求 分 发 到 同一 台 服 务 器 上 (也 可 以 根 
据 Cookie 信 息 将 同一 个 用 户 的 请 求 总 是 分 发 到 同一 台 服 务 器 上 ， 当 然 


这 时 负载 均衡 服务 器 必须 工作 在 HTTP 协 议 层 上 ， 关 于 负载 均衡 算法 的 
更 多 信息 请 参考 本 书 第 6 章 内 容 。 这 样 在 整个 会 话 期 间 ， 用 户 所 有 的 请 
求 都 在 同一 台 服 务 器 上 处 理 ， 即 Session 绑 定 在 某 台 特定 服务 器 上 ， 保 
证 Session 总 能 在 这 人 台 服 务 器 上 获取 。 这 种 方法 又 被 称 作 会 话 黏 沿 ， 如 
图 5.7 所 示 。 
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图 5.7 ”利用 负载 均衡 的 会 话 竹 滞 机 制 将 请 求 绑 定 到 特定 服务 器 


但 是 Session 绑 定 的 方案 显然 不 符合 我 们 对 系统 高 可 用 的 需求 ， 因 
为 一 旦 某 台 服务 器 宕 机 ， 那 么 该 机 器 上 的 Session 也 就 不 复 存 在 了 ， 用 
户 请 求 切 换 到 其 他 机 器 后 因为 没有 Session 而 无 法 完成 业务 处 理 。 因 此 
虽然 大 部 分 负载 均衡 服务 器 都 提供 源 地 址 负载 均衡 算法 ， 但 很 少 有 网 
站 利用 这 个 算法 进行 Session 管 理 。 


3。 利 用 Cookie 记 录 Session 


早期 的 企业 应 用 系统 使 用 C/S (客户 端 /服务 器 ) 架构 ， 一 种 管理 
Session 的 方式 是 将 Session 记 录 在 客户 端 ， 每 次 请 求 服务 器 的 时 候 ， 将 
Session 放 在 请 求 中 发 送 给 服务 器 ， 服 务 器 处 理 完 请 求 后 再 将 修改 过 的 
Session 员 应 给 客户 端 。 


网 站 没有 客户 端 ， 但 是 可 以 利用 浏览 器 支持 的 Cookie 记 录 
Session， 如 图 5.8 所 示 。 
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5.8 ”利用 Cookie 记 录 Session 信 息 


利用 Cookie 记 录 Session 也 有 一 些 缺 点 ， 比 如 受 Cookie 大 小 限制 |， 
能 记录 的 信息 有 限 ; 每 次 请 求 响应 都 需要 传输 Cookie， 影 响 性 能 ;如 
果 用 户 关 闭 Cookie， 访 问 就 会 不 正常 。 但 是 由 于 Cookie 的 简单 易 用 ， 
可 用 性 高 ， 支 持 应 用 服务 器 的 线性 伸缩 ， 而 大 部 分 应 用 需要 记录 的 
Session 信 息 又 比较 小 。 因 此 事实 上 ， 许多 网 站 都 或 多 或 少 地 使 用 
Cookie 记 录 Session。 


4。Session 服 务 器 


那么 有 没有 可 用 性 高 、 伸 缩 性 好 、 性 能 也 不 错 ， 对 信息 大 小 又 没 
有 限制 的 服务 器 集群 Session 管 理 方案 呢 ? 
答案 就 是 Session 服 务 器 。 利 用 独立 部 署 的 Session 服 务 器 (集群 ) 


统一 管理 Session ， 应 用 服务 器 每 次 读 写 Session 时 ， 都 访问 Session 服 务 
器 ， 如 图 5.9 所 示 。 


应 用 服务 器 3 


5.9 利用 Session 服 务 器 共享 Session 


这 种 解决 方案 事实 上 是 将 应 用 服务 器 的 状态 分 离 ， 分 为 无 状态 的 
应 用 服务 器 和 有 状态 的 Session 服 务 器 ， 然 后 针对 这 两 种 服务 器 的 不 同 
特性 分 别 设计 其 架构 。 


对 于 有 状态 的 Session 服 务 器 ， 一 种 比较 简单 的 方法 是 利用 分 布 式 
缓存 、 数 据 库 等 ， 在 这 些 产品 的 基础 上 进行 包装 ， 使 其 符合 Session 的 
存储 和 访问 要 求 。 如 果 业 务 场景 对 Session 管 理 有 比较 高 的 要 求 ， 比 如 
利用 Session 服 务 集成 单 点 登录 (SSO) 、 用 户 服务 等 功能 ， 则 需要 开 
发 专门 的 Session 服 务 管理 平台 。 


5.4 ”高 可 用 的 服务 


可 复 用 的 服务 模块 为 业务 产品 提供 基础 公共 服务 ， 大 型 网 站 中 这 
些 服务 通常 都 独立 分 布 式 部 署 ， 被 具体 应 用 远程 调用 。 可 复 用 的 服务 
和 应 用 一 样 ， 也 是 无 状态 的 服务 ， 因 此 可 以 使 用 类 似 负载 均衡 的 失效 
转移 策略 实现 高 可 用 的 服务 。 


除 此 之 外 ， 具 体 实践 中 ， 还 有 以 下 几 点 高 可 用 的 服务 策略 。 
1. 分 级 管理 


运 维 上 将 服务 器 进行 分 级 管理 ， 核 心 应 用 和 服务 优先 使 用 更 好 的 
硬件 ， 在 运 维 响应 速度 上 也 格外 了 迅速。 显然， 用 户 及 时 付款 购物 比 能 
不 能 评价 丙 品 更 重要 ， 所 以 订单 、 支 付 服务 比 评价 服务 有 更 高 优先 
级 。 


同时 在 服务 部 署 上 也 进行 必要 的 隔离 ， 避 免 故 障 的 连锁 反应 。 低 
优先 级 的 服务 通过 启动 不 同 的 线程 或 者 部 署 在 不 同 的 虚拟 机 上 进行 隔 
离 ， 而 高 优先 级 的 服务 则 需要 部 署 在 不 同 的 物理 机 上 ， 核 心服 务 和 数 
据 甚 至 需要 部 署 在 不 同 地 域 的 数据 中 心 。 


2。. 超时 设置 
由 于 服务 端 宕 机 、 线 程 死 锁 等 原因 ， 可 能 导致 应 用 程序 对 服务 端 


的 调用 失去 响应 ， 进 而 导致 用 户 请 求 长 时 间 得 不 到 响应 ， 同 时 还 占用 
应 用 程序 的 资源 ， 不 利于 及 时 将 访问 请 求 转移 到 正常 的 服务 器 上 。 


在 应 用 程序 中 设置 服务 调用 的 超时 时 间 ， 一 旦 超时 ， 通 信 框 架 就 
抛 出 异常 ， 应 用 程序 根据 服务 调度 策略 ， 可 选择 继续 重 试 或 将 请 求 转 
移 到 提供 相同 服务 的 其 他 服务 器 上 。 


3. 异步 调用 


应 用 对 服务 的 调用 通过 消息 队列 等 异步 方式 完成 ， 避 免 一 个 服务 
失败 导致 整个 应 用 请 求 失败 的 情况 。 如 提交 一 个 新 用 户 注册 请 求 ， 应 
用 需要 调用 三 个 服务 : 将 用 户 信 息 写 入 数据 库 ， 发 送 账户 注册 成 功 邮 
件 ， 开 通 对 应 权限 。 如 果 采 用 同步 服务 调用 ， 当 邮件 队列 阻塞 不 能 发 
送 邮件 时 ， 会 导致 其 他 两 个 服务 也 无 法 执行 ， 最 终 导致 用 户 注册 失 
败 。 


如 果 采 用 异步 调用 的 方式 ， 应 用 程序 将 用 户 注册 信息 发 送 给 消息 
队列 服务 器 后 立即 返回 用 户 注册 成 功 响 应 。 而 记录 用 户 注 册 信息 到 数 
据 库 、 发 送 用 户 注册 成 功 邮 件 、 调 用 用 户 服务 开通 权限 这 三 个 服务 作 
为 消息 的 消费 者 任务 ， 分 别 从 消息 队列 获取 用 户 注册 信息 异步 执行 。 
即使 邮件 服务 队列 阻塞 ， 邮 件 不 能 成 功 发 送 ， 也 不 会 影响 其 他 服务 的 
执行 ， 用 户 注册 操作 可 顺利 完成 ， 只 是 晚 一 点 收 到 注册 成 功 的 邮件 而 
已 。 


当然 不 是 所 有 服务 调用 都 可 以 异步 调用 ， 对 于 获取 用 户 信 息 这 类 
调用 ， 采 用 异步 方式 会 延长 响应 时 间 ， 得 不 偿 失 。 对 于 那些 必须 确认 
服务 调用 成 功 才能 继续 下 一 步 操作 的 应 用 也 不 合适 使 用 异步 调用 。 


4。 服 务 降级 


在 网 站 访问 高 峰 期 ， 服 务 可 能 因为 大 量 的 并 发 调用 而 性 能 下 降 ， 
严重 时 可 能 会 导致 服务 宕 机 。 为 了 保证 核心 应 用 和 功能 的 正常 运行 ， 
需要 对 服务 进行 降级 。 降 级 有 两 种 手段 : 拒绝 服务 及 关闭 服务 。 


拒绝 服务 : 拒绝 低 优先 级 应 用 的 调用 ,减少 服务 调用 并 发 数 ， 确 
保 核心 应 用 正常 使 用 ; 或 者 随机 拒绝 部 分 请 求 调用 ， 节 约 资源 ， 让 另 
一 部 分 请 求 得 以 成 功 ， 避 人 免 要 死 大 家 一 起 死 的 惨剧 。 貌 似 Twitter 比 较 
喜欢 使 用 随机 拒绝 请 求 的 策略 ， 经 常 有 用 户 看 到 请 求 失败 的 故障 页 
面 ， 但 是 问 下 身边 的 人 ， 其 他 人 都 正音 使 用 ， 目 己 再 刷新 页 面 ， 也 好 
了 。 


关闭 功能 : 关闭 部 分 不 重要 的 服务 ， 或 者 服务 内 部 关闭 部 分 不 重 
要 的 功能 ， 以 节约 系统 开销 ， 为 重要 的 服务 和 功能 让 出 资源 。 淘 宝 在 
每 年 的 “ 双 十 一 ”促销 中 就 使 用 这 种 方法 ， 在 系统 最 繁忙 的 时 段 关 闭 “ 评 
价 ”、“ 确 认 收 货 * 等 非 核 心服 务 ， 以 保证 核心 交易 服务 的 顺利 完成 。 


5。 堆 等 性 设计 


应 用 调用 服务 失败 后 ， 会 将 调用 请 求 重新 发 送 到 其 他 服务 器 ， 但 
是 这 个 失败 可 能 是 虚假 的 失败 。 比 如 服务 已 经 处 理 成 功 ， 但 因为 网 络 
故障 应 用 没有 收 到 响应 ， 这 时 应 用 重新 提交 请 求 就 导致 服务 重复 调 
用 ， 如 果 这 个 服务 是 一 个 转账 操作 ， 就 会 产生 严重 后 果 。 


服务 重复 调用 是 无 法 避免 的 ， 应 用 层 也 不 需要 关心 服务 是 否 真 的 
失败 ， 只 要 没有 收 到 调用 成 功 的 响应 ， 就 可 以 认为 调用 失败 ， 并 重 试 
服务 调用 。 因 此 必须 在 服务 层 保证 服务 重复 调用 和 调用 一 次 产生 的 结 
果 相 同 ， 即 服务 具有 需 等 性 。 


有 些 服务 天 然 具 有 有 需 等 性 ， 比 如 将 用 户 性 别 设置 为 男性 ， 不 管 设 
置 多 少 次 ， 结 果 都 一 样 。 但 是 对 于 转账 交易 等 操作 ， 问 题 就 会 比较 复 
杂 ， 需 要 通过 交易 编号 等 信息 进行 服务 调用 有 效 性 校 验 ， 只 有 有 效 的 
操作 才能 继续 执行 。 


5.5 ”高 可 用 的 数据 


对 许多 网 站 而 言 ， 数 据 是 其 最 宝贵 的 物质 资产 ， 硬 件 可 以 购买 ， 
软件 可 以 重 写 ， 但 是 多 年 运营 积淀 下 来 的 各 种 数据 (用 户 数据 、 交 易 
数据 、 丙 品 数据 .……...) ， 代 表 着 历史 ， 已 经 成 为 过 往 ， 不 能 再 重 来 ， 
一 旦 失去 ， 对 网 站 的 打击 可 以 说 是 毁 炎 性 的 ， 因 此 可 以 说 ,你 护 网 站 
的 数据 就 是 保护 企业 的 命脉 。 


不 同 于 高 可 用 的 应 用 和 服务 ， 由 于 数据 存储 服务 器 上 保存 的 数据 
不 同 ， 当 某 人 台 服 务 器 宕 机 的 时 候 ， 数 据 访问 请 求 不 能 任意 切换 到 集群 
中 其 他 的 机 器 上 。 


保证 数据 存储 高 可 用 的 手段 主要 是 数据 备份 和 失效 转移 机 制 。 数 
据 备 份 是 保证 数据 有 多 个 副本 ， 任 意 副 本 的 失效 都 不 会 导致 数据 的 永 
久 丢 失 ， 从 而 实现 数据 完全 的 持久 化 。 而 失效 转移 机 制 则 保证 当 一 个 
数据 副本 不 可 访问 时 ， 可 以 快速 切换 访问 数据 的 其 他 副本 ， 保 证 系统 
可 用 。 


关于 缓存 服务 的 高 可 用 ， 在 实践 中 争议 很 大 ， 一 种 观点 认为 缓存 
已 经 成 为 网 站 数据 服务 的 重要 组 成 部 分 ， 事 实 上 承担 了 业务 中 绝 大 多 
效 的 数据 谈 取 访问 服务 ， 缓 存 服务 失效 可 能 会 导致 数据 库 负 载 过 高 而 
宕 机 ， 进 而 影响 整个 网 站 的 可 用 性 ， 因 此 缓存 服务 需要 实现 和 数据 存 
储 服务 同样 的 高 可 用 。 


另 一 种 观点 认为 ， 缓 存 服务 不 是 数据 存储 服务 ， 缓 存 服务 器 宕 机 
引起 缓存 数据 丢失 导致 服务 器 负载 压力 过 高 应 该 通过 其 他 手段 解决 ， 
而 不 是 提高 缓存 服务 本 身 的 高 可 用 。 


笔者 持 后 一 种 观点 ， 对 于 缓存 服务 器 集群 中 的 单机 宕 机 ， 如 果 缓 
存 服务 器 集群 规模 较 大 ， 那 么 单机 宕 机 引起 的 缓存 数据 丢失 比例 和 数 
据 库 负载 压力 变化 都 较 小 ， 对 整个 系统 影响 也 较 小 。 扩 大 缓存 服务 器 
集群 规模 的 一 个 简单 手段 就 是 整个 网 站 共享 同一 个 分 布 式 缓存 集群 ， 
单独 的 应 用 和 产品 不 需要 部 署 自己 的 缓存 服务 器 ， 只 需要 向 共享 缓存 
集群 申请 缓存 资源 即 可 。 并 且 通 过 逻辑 或 物理 分 区 的 方式 将 每 个 应 用 
的 缓存 部 署 在 多 台 服 务 器 上 ， 任 何 一 台 服 务 器 宕 机 引起 的 缓存 失效 都 
只 影响 应 用 缓存 数据 的 一 小 部 分 ， 不 会 对 应 用 性 能 和 数据 库 负 载 造成 
太 大 影响 。 


5.5.1 ”CAP 原理 


在 讨论 高 可 用 数据 服务 架构 之 前 ， 必 须 先 讨论 的 一 个 话题 是 ， 为 
了 保证 数据 的 高 可 用 ， 网 站 通 妆 会 牺牲 另 一 个 也 很 重要 的 指标 : 数据 
一 致 性 。 


高 可 用 的 数据 有 如 下 几 个 层面 的 含义 。 
数据 持久 性 


保证 数据 可 持久 存储 ， 在 各 种 情况 下 都 不 会 出 现 数据 丢失 的 问 
题 。 为 了 实现 数据 的 持久 性 ， 不 但 在 写 入 数据 时 需要 写 入 持久 性 存 
储 ， 还 需要 将 数据 备份 一 个 或 多 个 副本 ， 存 放 在 不 同 的 物理 存储 设备 
上 ,在 某 个 存储 故障 或 灾害 发 生 时 ， 数 据 不 会 丢失 。 


数据 可 访问 性 


在 多 份 数 据 副 本 分 别 存放 在 不 同 存 储 设备 的 情况 下 ， 如 果 一 个 数 
据 存 储 设备 损坏 ， 融 需要 将 数据 访问 切换 到 另 一 个 效 据 存 储 设 备 上 ， 


如 果 这 个 过 程 不 能 很 快 完成 〈 终 端 用 户 几 乎 没有 感知 ) ， 或 者 在 完成 
过 程 中 需要 停止 终端 用 户 访 问 数据 ， 那 么 这 段 时 间 数 据 是 不 可 访问 
的 。 


数据 一 致 性 


在 数据 有 多 份 副 本 的 情况 下 ， 如 果 网 络 、 服 务 器 或 者 软件 出 现 故 
障 ， 会 导致 部 分 副本 写 入 成 功 ， 部 分 副本 写 入 失败 。 这 就 会 造成 各 个 
副本 之 间 的 数据 不 一 致 ， 数 据 内 容 冲 突 。 实 践 中 ， 导 致 数据 不 一 致 的 
情形 有 很 多 种 ， 表 现形 式 也 多 种 多 样 ， 比 如 数据 更 新 返回 操作 失败 ， 
事实 上 数据 在 存储 服务 器 已 经 更 新 成 功 。 


CAP 原 理 认为 ， 一 个 提供 数据 服务 的 存储 系统 无 法 同时 满足 数据 
一 致 性 (Consistency) 、 数 据 可 用 性 (Availibility) 、 分 区 耐 受 性 
(Patition Tolerance， 系 统 具 有 跨 网 络 分 区 的 伸缩 性 ) 这 三 个 条 件 ， 如 
图 5.10 所 示 。 


从 数据 可 用 性 : 任何 时 候 ， 任 
何 应 用 程序 都 可 以 读 写 访问 


分 区 耐 受 性 ;系统 可 以 
跨 网 络 分 区 线性 伸缩 


数据 一 致 性 : 所 有 应 用 程序 
都 能 访问 得 到 相同 的 数据 


图 5.10 ”CAP 原 理 


在 大 型 网 站 应 用 中 ， 数 据 规模 总 是 快速 扩张 的 ， 因 此 可 伸缩 性 即 
分 区 耐 受 性 必 不 可 少 ， 规 模 变 大 以 后 ， 机 器 数量 也 会 变 得 庞大 ， 这 时 
网 络 和 服务 器 故障 会 频繁 出 现 ， 要 想 保证 应 用 可 用 ， 就 必须 保证 分 布 
陈 处 理 系 统 的 高 可 用 性 。 所 以 在 大 型 网 站 中 ， 通 单 会 选择 强化 分 布 式 
存储 系统 的 可 用 性 (A) 和 伸缩 性 〈(P) ， 而 在 某 种 程度 上 放弃 一 致 性 
(C) 。 一般 说 来 ， 数 据 不 一 致 通常 出 现在 系统 高 并 发 写 操 作 或 者 集 
群 状 态 不 稳 (故障 恢复 、 集 群 扩容 .……...) 的 情况 下 ， 应 用 系统 需要 对 
分 布 式 数据 处 理 系 统 的 数据 不 一 致 性 有 所 了 解 并 进行 某 种 意义 上 的 补 
兰 和 纠 错 ， 以 避免 出 现 应 用 系统 数据 不 正确 。 


2012 年 淘宝 “ 双 十 一 ”活动 期 间 ， 在 活动 第 一 分 钟 就 涌 入 了 1000 万 
独立 用 户 访问 ， 这 种 极端 的 高 并 发 场景 对 数据 处 理 系统 造成 了 巨大 压 
力 ， 存 储 系统 较 弱 的 数据 一 致 性 导致 出 现 部 分 商品 超 卖 现象 (交易 成 
功 的 商品 数 超过 了 商品 库存 数 ) 。 


CAP 原 理 对 于 可 伸缩 的 分 布 式 系统 设计 具有 重要 意义 ， 在 系统 设 
计 开 发 过 程 中 ， 不 恰当 地 迎合 各 种 需求 ， 企 图 打造 一 个 完美 的 产品 ， 
可 能 会 使 设计 进入 两 难 境地 ， 难 以 为 继 。 


具体 说 来 ， 数 据 一 致 性 又 可 分 为 如 下 几 谈 。 
数据 强 一 致 


各 个 副本 的 数据 在 物理 存储 中 总 是 一 致 的 ; 数据 更 新 操作 结果 和 
操作 响应 总 是 一 致 的 ， 即 操作 响应 通知 更 新 失败 ， 那 么 数据 一 定 没 
被 更 新 ， 而 不 是 处 于 不 确定 状态 。 


数据 用 户 一 致 


即 数据 在 物理 存储 中 的 各 个 副本 的 数据 可 能 是 不 一 致 的 ， 但 是 终 
端 用 户 访问 时 ， 通 过 纠 错 和 校 验 机 制 ， 可 以 确定 一 个 一 致 的 且 正 确 的 
数据 返回 给 用 户 。 


数据 最 终 一 致 


这 是 数据 一 致 性 中 较 弱 的 一 种 ， 即 物理 存储 的 数据 可 能 是 不 一 致 
的 ， 终 端 用 户 访问 到 的 数据 可 能 也 是 不 一 致 的 (同一 用 户 连 续 访问 ， 
结果 不 同 ; 或 者 不 同 用 户 同时 访问 ， 结 果 不 同 ) ， 但 系统 经 过 一 段 时 
间 〈 通 常 是 一 个 比较 短 的 时 间 段 ) 的 自我 恢复 和 修正 ， 数 据 最 终 会 达 


到 一 至 oO 


因为 难以 满足 数据 强 一 致 性 ， 网 站 通 音 会 综合 成 本 、 技 术 、 业 务 
场景 等 条 件 ， 结 合 应 用 服务 和 其 他 的 数据 监控 与 纠 错 功能 ， 使 存储 系 
统 达 到 用 户 一 致 ， 保 证 最 终 用 户 访问 数据 的 正确 性 。 


5.5.2 ”数据 备份 


效 据 备份 是 一 种 古老 而 有 效 的 数据 保护 手段 ， 早 期 的 数据 备份 手 
段 主要 是 数据 冷 备 ， 即 定期 将 数据 复制 到 某 种 存储 介质 (磁带 ， 光 
盘 ..……...) 上 并 物理 存档 保管 ， 如 果 系 统 存储 损坏 ， 那 么 就 从 冷 备 的 存 
储 设 备 中 恢复 数据 。 


冷 备 的 优点 是 简单 和 廉价 ， 成 本 和 技术 难度 都 较 低 。 缺 点 是 不 能 
保证 数据 最 终 一 臻 ， 由 于 数据 是 定期 复制 ， 因 此 备份 设备 中 的 数据 比 
系统 中 的 数据 陈旧 ， 如 果 系 统 数据 丢失 ， 那 么 从 上 个 备份 点 开始 后 更 
新 的 数据 就 会 永久 丢失 ， 不 能 从 备份 中 恢复 。 同 时 也 不 能 保证 数据 可 
用 性 ， 从 冷 备 存储 中 恢复 数据 需要 较 长 的 时 间 ， 而 这 上段 时 间 无 法 访问 
数据 ， 系 统 也 不 可 用 。 


因此 ， 数 据 冷 备 作 为 一 种 传统 的 数据 保护 手段 ， 依 然 在 网 站 日 党 
运 维 中 使 用 ， 同 时 在 网 站 实时 在 线 业 务 中 ， 还 需要 进行 数据 热 备 ， 以 
提供 更 好 的 数据 可 用 性 。 


数据 热 备 可 分 为 两 种 : 异步 热 备 方式 和 同步 热 备 方式 。 


异步 方式 是 指 多 份 数据 副本 的 写 入 操作 异步 完成 ， 应 用 程序 收 到 
数据 服务 系统 的 瑟 操 作成 功 响应 时 ， 只 写成 功 了 一 份 ， 存 储 系统 将 会 
异步 地 写 其 他 副本 〈 这 个 过 程 有 可 能 会 失败 ) 。 如 图 5.11 所 示 。 


存 铺 服务 器 
客户 应 


存 精 服务 器 ‘ 主 ) 


存储 服务 器 
( 写 操作 代理 存储 服务 


存 铺 服务 器 【从 》 


存 铺 服务 


图 5.11 数据 异步 热 备 


在 异步 写 入 方式 下 ， 存 储 服 务 器 分 为 主 存储 服务 器 (Master) 和 
从 存储 服务 器 (Slave) ， 应 用 程序 正常 情况 下 只 连接 主 存储 服务 器 ， 
效 据 写 入 时 ， 由 主 存储 服务 器 的 写 操 作 代理 模块 将 数据 写 入 本 机 存储 
系统 后 立即 返回 写 操作 成 功 响 应 ， 然 后 通过 异步 线程 将 写 操作 数据 同 
步 到 从 存储 服务 器 。 


同步 方式 是 指 多 份 数据 副本 的 写 入 操作 同步 完成 ， 即 应 用 程序 收 
到 数据 服务 系统 的 写成 功 响 应 时 ， 多 份 数据 都 已 经 写 操作 成 功 。 但 是 
当 应 用 程序 收 到 数据 写 操 作 失 败 的 响应 时 ， 可 能 有 部 分 副本 或 者 全 部 
副本 都 已 经 写成 功 了 (因为 网 络 或 者 系统 故障 ， 无 法 返回 操作 成 功 的 
响应 ) ， 如 图 5.12 所 示 。 
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图 5.12 ”数据 同步 热 备 


同步 热 备 具体 实现 的 时 候 ， 为 了 提高 性 能 ， 在 应 用 程序 客户 端 并 
发 向 多 个 存储 服务 器 同时 写 入 数据 ， 然 后 等 待 所 有 存储 服务 器 都 返回 
操作 成 功 的 响应 后 ， 再 通知 应 用 程序 写 操 作成 功 。 


这 种 情况 下 ， 存 储 服务 器 没有 主 从 之 分 ， 完 全 对 等 ， 更 便于 管理 
和 维护 。 存 储 服务 客户 端 在 写 多 份 数 据 的 时 候 ， 并 发 操作 ， 这 意味 着 
多 份 数据 的 总 写 操作 延迟 是 响应 最 慢 的 那 台 存储 服务 器 的 响应 延迟 ， 
而 不 是 多 台 存 储 服务 器 响应 延迟 之 和 。 其 性 能 和 异步 热 备 方式 差 不 
多 。 


传统 的 企业 级 关系 数据 库 系统 几乎 都 提供 了 数据 实时 同步 备份 的 
机 制 。 而 一 开始 就 为 大 型 网 站 而 设计 的 各 种 NoSQL 数 据 库 (如 


HBase) 更 是 将 数据 备份 机 制作 为 产品 最 主要 的 功能 点 之 一 。 


关系 数据 库 热 备 机 制 就 是 通常 所 说 的 Master-Slave 同 步 机 制 |。 
Master-Slave 机 制 不 但 解决 了 数据 备份 问题 ， 还 改善 了 数据 库 系 统 的 性 
能 ， 实 践 中 ， 通 常 使 用 读 写 分 离 的 方法 访问 Slave 和 Master 数 据 库 ， 写 
操作 只 访问 Master 数 据 库 ， 读 操作 只 访问 Slave 数 据 库 。 


5.5.3 ”失效 转移 


若 数 据 服务 器 集群 中 任何 一 台 服 务 器 宕 机 ， 那 么 应 用 程序 针对 这 
台 服 务 器 的 所 有 读 写 操作 都 需要 重新 路 由 到 其 他 服务 器 ， 保 证 数据 访 
问 不 会 失败 ， 这 个 过 程 叫 作 失 效 转移 。 


失效 转移 操作 由 三 部 分 组 成 : 失效 确认 、 访 问 转移 、 数 据 恢 复 。 
1。 失效 确认 


判断 服务 器 宕 机 是 系统 进行 失效 转移 的 第 一 步 ， 系 统 确认 一 台 服 
务 器 是 否 宕 机 的 手段 有 两 种 : 心跳 检测 和 应 用 程序 访问 失败 报告 ， 如 
图 5.13 所 示 。 
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图 5.13 ”存储 服务 器 失效 确认 


对 于 应 用 程序 的 访问 失败 报告 ， 控 制 中 心 还 需要 再 一 次 发 送 心跳 
检测 进行 确认 ， 以 免 错误 判断 服务 器 宕 机 ， 因 为 一 旦 进行 数据 访问 的 
失效 转移 ， 就 意味 着 数据 存储 多 份 副 本 不 一 致 ， 需 要 进行 后 续 一 系列 
复杂 的 操作 。 


2。 访 问 转移 


确认 某 台 数据 存储 服务 器 宕 机 后 ， 就 需要 将 数据 读 写 访问 重新 路 
到 其 他 服务 器 上 。 对 于 完全 对 等 存储 的 服务 器 ( 几 台 存储 服务 器 存 
储 的 数据 完全 一 样 ， 我 们 称 几 台 服务 器 为 对 等 服务 器 ， 比 如 主 从 结构 
的 存储 服务 器 ， 其 存储 的 数据 完全 一 样 ) ， 当 其 中 一 台 宕 机 后 ， 应 用 
程序 根据 配置 直接 切换 到 对 等 服务 器 上 。 如 果 存 储 是 不 对 等 的 ， 那么 
束 需 要 重新 计算 路 由 ， 选 择 存储 服务 器 。 


3。 数据 恢复 


因为 某 台 服务 器 大 机 ， 所 以 数据 存储 的 副本 数目 会 减少 ， 必 须 将 
副本 的 数目 恢复 到 系统 设 定 的 值 ， 否 则 ， 再 有 服务 器 宕 机 时 ， 就 可 能 
出 现 无 法 访问 转移 (所 有 副本 的 服务 器 都 宕 机 了 ) ， 数 据 永久 丢失 的 
情况 。 因 此 系统 需要 从 健康 的 服务 器 复制 数据 ， 将 数据 副本 数目 恢复 
到 设 定 值 。 具 体 设 计 可 参考 本 书 第 11 章 。 


5.6 ”高 可 用 网 站 的 软件 质量 保证 


在 网 站 运 维 实践 中 ， 除 了 网 络 、 服 务 器 等 硬件 故障 导致 的 系统 可 
用 性 风险 外 ， 还 有 来 自 软件 系统 本 身 的 风险 。 


关于 传统 的 软件 测试 和 软件 质量 保证 管理 无 需 费 言 ， 本 节 重 点 讨 
论 网 站 为 了 保证 线 上 系统 的 可 用 性 而 采取 的 一 些 与 传统 软件 开发 不 同 
的 质量 保证 手段 。 


5.6.1 ”网 站 发 布 


网 站 需要 保证 7724 高 可 用 运行 ， 同 时 网 站 又 需要 不 断 地 发 布 新 功 
能 吸引 用 户 以 保证 在 激烈 的 市 场 竞 争 中 获得 成 功 。 许 多 大 型 网 站 每 周 
都 需要 发 布 一 到 两 次 ， 而 中 小 型 网 站 则 更 加 频繁 ， 一 些 处 于 快速 发 展 
期 的 网 站 甚至 每 天 发 布 十 几 次 。 


不 管 发 布 的 新 功能 是 修改 了 一 个 按钮 的 布局 还 是 增加 了 一 个 核心 
业务 ， 都 需要 在 服务 器 上 关闭 原 有 的 应 用 ， 然 后 重新 部 署 启 动 新 的 应 
用 ， 整 个 过 程 还 要 求 不 影响 用 户 的 使 用 。 这 相当 于 要 求 给 飞行 中 的 飞 
机 换个 引擎 ， 既 不 能 让 飞机 有 剧烈 晃动 〈 影 响 用 户 体验 ) ， 也 不 能 让 
飞机 降落 (系统 停机 维护 ， 更 不 能 让 飞机 坠毁 (系统 故障 网 站 完全 
不 可 用 ) 。 


网 站 的 发 布 过 程 事 实 上 和 服务 器 宕 机 效果 相当 ， 其 对 系统 可 用 性 
的 影响 也 和 服务 器 宕 机 相似 。 所 以 设计 一 个 网 站 的 高 可 用 架构 时 ， 需 
要 考虑 的 服务 器 宕 机 概率 不 是 物理 上 的 每 年 一 两 次 ， 而 是 事实 上 的 每 
周一 两 次 。 也 许 你 认为 这 个 应 用 不 重要 ， 重 启 也 非常 快 ， 用 户 可 以 忍 
受 每 年 一 到 两 次 的 宕 机 故障 ， 因 而 不 需要 复杂 的 高 可 用 设计 。 事 实 


上 ， 由 于 应 用 的 不 断 发 布 ， 用 户 需 要 面 对 的 是 每 周一 到 两 次 的 宕 机 故 
障 。 


但 是 网 站 发 布 毕竟 是 一 次 提前 预知 的 服务 器 宕 机 ， 所 以 过 程 可 以 
更 柔和 ， 对 用 户 影响 更 小 。 通 常 使 用 发 布 脚本 来 完成 发 布 ， 其 流程 如 
图 5.14 所 示 。 


关闭 负载 均衡 服务 颖 上 一 台 或 一 小 批 服务 颖 路 由 
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图 5.14 ”网 站 应 用 发 布 流程 


发 布 过 程 中 ， 每 次 关闭 的 服务 器 都 是 集群 中 的 一 小 部 分 ， 并 在 发 
布 完成 后 立即 可 以 访问 ， 因 此 整个 发 布 过 程 不 影响 用 户 使 用 。 


5.6.2 ”自动 化 测试 


代码 在 发 布 到 线 上 服务 器 之 前 需要 进行 严格 的 测试 。 即 使 每 次 发 
布 的 新 功能 都 是 在 原 有 系统 功能 上 的 小 幅 增 加 ， 但 为 了 保证 系统 没有 
引入 未 预料 的 Bug， 网 站 测试 还 是 需要 对 整个 网 站 功能 进行 全 面 的 回 
归 测试 。 此 外 还 需要 测试 各 种 浏览 器 的 兼容 性 。 在 发 布 频繁 的 网 站 应 
用 中 ， 如 果 使 用 人 工 测 试 ， 成 本 、 时 间 及 测试 覆盖 率 都 难以 接受 。 


目前 大 部 分 网 站 都 采用 Web 自 动 化 测试 技术 ， 使 用 自动 测试 工具 
或 脚本 完成 测试 。 比 较 流 行 的 Web 自 动 化 测试 工具 是 ThoughtWorks 开 
发 的 Selenium。 Selenium 运 行 在 浏览 器 中 ， 模 拟 用 户 操 作 进 行 测试 ， 
此 Selenium 可 以 同时 完成 Web 功 能 测试 和 浏览 器 兼容 测试 。 


大 型 网 站 通常 也 会 开发 自己 的 自动 化 测试 工具 ， 可 以 一 键 完成 系 
统 部 署 ， 测 试 数据 生成 、 测 试 执行 、 测 试 报告 生成 等 全 部 测试 过 程 。 
许多 网 站 测试 工程 师 的 编码 能 力 曼 不 逊 于 软件 工程 师 。 


5.6.3 “” 预 发 布 验证 


即使 是 经 过 严格 的 测试 ， 软 件 部 署 到 线 上 服务 器 之 后 还 是 经 单 会 
出 现 各 种 问题 ， 甚 至 根本 无 法 启动 服务 器 。 主 要 原因 是 测试 环境 和 线 
上 环境 并 不 相同 ， 特 别 是 应 用 需要 依赖 的 其 他 服务 ， 如 数据 库 ， 缓 
存 、 公 用 业务 服务 等 ， 以 及 一 些 第 三 方 服务 ， 如 电信 短信 了 网关、 银行 
网 银 接 口 等 。 


也 许 是 数据 库 表 结构 不 一 致 ; 也许 是 接口 变化 导致 的 通信 失败 ; 
也 许 是 配置 错误 导致 连接 失败 ; 也 许 是 依赖 的 服务 线 上 环境 还 没有 准 
备 好 ， 这 些 问题 都 有 可 能 导致 应 用 故障 。 


因此 在 网 站 发 布 时 ， 并 不 是 把 测试 通过 的 代码 包 直 接 发 布 到 线 上 
服务 器 ， 而 是 先 发 布 到 预 发 布 机 器 上 ， 开 发 工程 师 和 测试 工程 师 在 预 
发 布 服务 器 上 进行 预 发 布 验证 ， 执 行 一 些 典 型 的 业务 流程 ， 确 认 系统 
没有 问题 后 才 正 式 发 布 。 


预 发 布 服务 器 是 一 种 特殊 用 途 的 服务 器 ， 它 和 线 上 的 正式 服务 器 
唯一 的 不 同 就 是 没有 配置 在 负载 均衡 服务 器 上 ， 外 部 用 户 无 法 访问 ， 
如 图 5.15 所 示 。 
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图 5.15 ”网 站 应 用 预 发 布 


预 发 布 服务 器 和 线 上 正式 服务 器 (应 用 服务 器 1，2，3) 都 部 署 在 
相同 的 物理 环境 〈 同 一 个 数据 中 心 甚 至 同一 个 机 架 上 ， 如 果 使 用 虚拟 
机 ， 甚 至 可 能 在 同一 个 物理 服务 器 上 ) 中 ， 使 用 相同 的 线 上 配置 ， 依 
赖 相 同 的 外 部 服务 。 网 站 工程 师 通过 在 自己 的 开发 用 计算 机 上 配置 
hosts 文 件 绑 定 域名 卫 关 系 直 接 使 用 也 地 址 访问 预 发 布 服务 器 。 如 果 在 
预 发 布 服务 器 上 执行 的 测试 验证 是 正确 的 ， 基 本 可 以 确保 在 线 上 正式 
服务 器 部 署 时 也 没有 问题 。 


不 过 ， 也 有 可 能 会 因为 预 友 布 验证 而 引入 问题 。 因 为 预 发 布 服务 
器 连接 的 是 真实 的 生产 环境 ， 所 有 的 预 发 布 验证 操作 都 是 真实 有 效 的 
数据 ， 这 些 操作 也 许 会 引起 不 可 预期 的 问题 。 比 如 创建 一 个 店铺 ， 上 
架 一 个 商品 ， 就 有 可 能 有 真 的 用 户 过 来 购买 ， 如 果 不 能 发 货 ， 会 时 至 
用 户 投诉 。 


一 个 真实 的 案例 是 某 网 站 需要 验证 海外 第 三 方 支付 功能 ， 每 件 商 
品 的 售 价 本 来 是 数 千 美金 ， 工 程 师 不 可 能 人 花 数 千 美金 去 验证 自己 开发 
的 功能 ， 于 是 将 金额 改 成 一 美元 ， 验 证 成 功 后 ， 季 福地 发 布 上 线 了 ， 
第 二 天 上 班 后 ， 发 现 大 量 商品 以 一 美元 的 价格 成 交 。 


此 外 ， 在 网 站 应 用 中 强调 的 一 个 处 理 错误 的 理念 是 快速 失败 (fast 
failed) ， 即 如 果 系 统 在 启动 时 发 现 问题 就 立刻 抛 出 异常 ， 停 止 启动 让 
工程 师 介 入 排查 错误 ， 而 不 是 局 动 后 执行 错误 的 操作 。 


5.6.4 ”代码 控制 


对 于 大 型 网 站 ， 核 心 应 用 系统 和 公用 业务 模块 涉及 许多 团队 和 工 
呈 师 ， 需 要 对 相同 的 代码 库 进 行 共同 开发 和 维护 。 而 这 些 团队 对 同一 
个 应 用 的 开发 维护 (开发 周期 和 发 布 时 间 点 各 不 相同 ) ， 如 果 代 码 控 


制 环节 出 了 问题 ， 可 能 将 有 问题 的 代码 发 布 上 线 ， 将 问题 市 入 生产 环 
境 ， 导 致 系统 故障 。 


网 站 代码 控制 的 核心 问题 是 如 何 进行 代码 管理 ， 既 能 保证 代码 发 
布 版 本 的 稳定 正确 ， 同 时 又 能 保证 不 同 团队 的 开发 互 不 影响 。 


目前 大 部 分 网 站 使 用 的 源 代码 版 本 控制 工具 是 SVN，SVN 代 码 控 
制 和 版 本 发 布 方式 一 般 有 以 下 两 种 。 


1。 主 干 开发 、 分 支 发 布 


代码 修改 都 在 主干 (trunk) 上 进行 ， 需 要 发 布 的 时 候 ， 从 主干 上 
拉 一 个 分 支 (branch) 发 布 ， 该 分 支 即 成 为 一 个 发 布 版 本 ， 如 果 该 版 
本 发 现 Bug， 继 续 在 该 分 支 上 修改 发 布 ， 并 将 修改 合并 (merge) 回 主 
干 ， 直 到 下 次 主干 发 布 。 


2. 分 支 开发 ， 主 干 发 布 


任何 修改 都 不 得 在 主干 上 直接 进行 ， 需 要 开发 一 个 新 功能 或 者 修 
复 一 个 Bug 时 ， 从 主干 拉 一 个 分 支 进 行 开发 ， 开 发 完成 且 测 试 通过 
百 ， 合 并 回 主干 ， 然 后 从 主干 进行 发 布 ， 主 干 上 的 代码 永远 是 最 新 发 
布 的 版 本 。 


这 两 种 方式 各 有 优 缺 点 。 主 干 开发 、 分 支 发 布 方式 ， 主 干 代 码 反 
应 目前 整个 应 用 的 状态 ， 一 目 了 然 ， 便 于 管理 和 控制 ， 也 利于 持续 集 
成 。 分 支 开发 ， 主 干 发 布 方式 ， 各 个 分 支 独立 进行 ， 互 不 干扰 ， 可 以 
使 不 同 发 布 周期 的 开发 在 同一 应 用 中 进行 。 


目前 网 站 应 用 开发 中 主要 使 用 的 是 分 支 开 发 、 主 干 发 布 的 方式 ， 
如 图 5.16 所 示 。 


1 2 3 4 


代码 主干 
创建 分 支 merge 到 主干 创建 分 支 
分 支 ! 


图 5.16 ”网 站 分 支 开发 主干 发 布 示意 图 


可 以 想象 ， 如 果 使 用 主干 开发 、 分 支 发 布 ， 那么 在 同一 个 应 用 
上 ， 对 于 不 同 开发 周期 ， 不 同 发 布 时 间 的 项 目 ， 有 可 能 A 项 目 发 布 的 
时 候 ，B 项 目 只 开发 了 一 半 ， 这 时 候 的 主干 代码 是 半成品 ， 根 本 不 能 
发 布 。 而 使 用 分 支 开 发 、 主 干 发 布 的 方式 ， 只 需要 将 A 项 目的 分 支 合 
并 回 主干 即 可 发 布 ， 不 受 B 项 目 发 布 时 间 的 影响 。 


目前 在 开源 技术 社区 ，Git 作 为 版 本 控制 工具 ， 正 逐步 取代 SVN 的 
地 位 。Git 对 分 布 式 开 发 ， 分 支 开 发 等 有 更 好 的 支持 ， 也 更 容易 在 各 个 
开发 分 支 上 及 时 反映 主干 的 最 新 更 新 ， 避 免 SVN 在 最 后 提交 分 支 代码 
时 发 现 和 主干 代码 差别 太 大 难以 merge 成 功 。 但 是 Git 的 学 习 成 本 较 
高 ， 如 何 和 网 站 开发 流程 相 结 合 还 缺乏 最 佳 实践 和 使 用 规 泥 。 不 过 相 
信 Git 成 为 网 站 的 标准 版 本 控制 工具 是 述 早 的 事 。 


5.6.5 ”自动 化 发 布 


网 站 的 版 本 发 布 频繁 ， 整 个 发 布 过 程 需要 许多 团队 通力 合作 ， 发 
布 前 ， 多 个 代码 分 支 合并 回 主干 可 能 会 发 生 冲 突 (conflict) ， 预 发 布 
验证 也 会 带 来 风险 ， 每 次 发 布 又 相当 于 一 次 宕 机 事故 。 因 此 网 站 发 布 
过 程 托 来 从 生 ， 一 不 小 心 就 会 躁 到 雷 。 


对 于 有 固定 发 布 日 期 的 网 站 (很 多 网 站 选择 周 四 作为 发 布 日 ， 这 
样 一 周 前 面 有 三 天 时 间 可 以 准备 发 布 ， 后面 还 有 一 天 时 间 可 以 挽回 错 
误 。 如 果 选 择 周 五 发 布 ， 发 现 问 题 就 必须 要 周末 加 班 了 ?。) ， 一 到 发 
布 日 ， 整 个 技术 部 门 甚至 运营 部 门 就 如 临 大 敌 ， 电 话 声 此 起 彼 伏 ， 工 
程 师 步 履 和 匆匆 ， 连 空气 中 的 瘟 度 都 仿佛 升 高 了 几 度 。 即 便 如 此 ， 发 布 
过 程 还 是 常常 出 错 ， 发 布 日 工程 师 加 班 到 凌晨 是 常 有 的 事 。 而 且 容 易 
忙中 出 错 ， 因 发 布 引 发 的 故障 也 居 高 不 下 。 


据说 国外 某 知名 互联 网 公司 的 CTO 就 因为 没有 有效 手段 控制 发 布 
故障 、 减 少 发 布 日 的 加 班 而 引咎 辞职 。 其 继任 者 提出 了 一 个 火车 发 布 
模型 : 将 每 个 应 用 的 发 布 过 程 看 作 一 次 火车 旅程 ， 火 车 定点 运行 ， 期 
间 有 若干 站 点 ， 每 一 站 都 进行 例 行 检查 ， 不 通过 的 项 目下 车 ， 剩 下 的 
项 目 继续 坐 着 火车 旅行 ， 直 到 火车 到 达 终 点 〈 应 用 发 布 成 功 ) 。 但 实 
际 中 ， 有 可 能 所 有 项 目 都 下 车 了 ， 开 着 空 车 前 进 是 没有 意义 的 ， 火 车 
不 得 不 回 到 起 点 ， 等 竺 解决 了 问题 再 重 来 一 次 。 还 有 可 能 是 车 上 有 达 
官 贵人 《重点 项 目 ，CEO 跟 投资 人 拍 胸 且 的 项 目 ) ， 他 不 上 车 ， 谁 也 
别 想 走 ， 他 出 了 错 ， 大 家 都 跟着 回去 重 来 。 简 化 的 火车 发 布 模型 如 图 
5.17 所 示 。 


+ : ， 
确认 失败 项 ; 验证 失败 项 
目 退 出 发 布 合并 失败 项 目 退出 发 布 。 目 退 出 发 布 


图 5.17 网 站 火车 发 布 模型 


由 于 火车 发 布 模型 是 基于 规则 驱动 的 流程 ， 所 以 这 个 流程 可 以 自 
动 化 。 采 用 火车 发 布 模型 的 网 站 会 开发 一 个 自动 化 发 布 的 工具 实现 发 
布 过 程 的 自动 化 。 根 据 响应 驱动 流程 ， 自 动 构造 代码 分 支 ， 进 行 代码 
合并 ， 执 行 发 布 脚本 等 。 正 单 流程 下 ， 可 以 做 到 发 布 过 程 无 人 值守 ， 
无 需 SCM (网 站 配置 管理 员 ) 参与， 每 个 项 目 相 关 人 员 基 于 流程 执行 
相应 的 操作 ， 即 可 完成 应 用 自动 发 布 。 人 的 干预 越 少 ， 自 动 化 程度 越 
高 ， 引 入 故障 的 可 能 性 就 越 小 ， 火 车 准点 到 达 ， 大 家 按时 下 班 的 可 能 
性 惑 越 大 。 


5.6.6 ” 灰 度 发 布 


应 用 发 布 成 功 后 ,仍然 可 能 发 现 因为 软件 问题 而 引入 的 故障 ， 这 
时 候 融 需要 做 发 布 回 滚 ， 即 艺 载 刚 刚 发 布 的 软件 ， 将 上 一 个 版 本 的 软 
件 包 重 新 发 布 ， 使 系统 复原 ， 消 除 故 障 。 


大 型 网 站 的 主要 业务 服务 器 集群 规模 非常 庞大 ， 比 如 某 大 型 应 用 
集群 服务 器 数量 超过 一 万 台 。 一 旦 发 现 故 障 ， 即 使 想 要 发 布 回 滚 也 需 
要 很 长 时 间 才 能 完成 ， 只 能 眼睁睁 看 着 故障 时 间 不 断 增加 却 干 着 急 。 
为 了 应 付 这 种 局 面 ， 大 型 网 站 会 使 用 灰 度 发 布 模式 ， 将 集群 服务 器 分 
成 若干 部 分 ， 每 天 只 发 布 一 部 分 服务 器 ， 观 察 运行 稳定 没有 故障 ， 第 
二 天 继续 发 布 一 部 分 服务 器 ， 持 续 几 天 才 把 整个 集群 全 部 发 布 完毕 ， 
期 间 如 果 发 现 问题 ， 只 需要 回 滚 已 发 布 的 一 部 分 服务 器 即 可 。 如 图 
5.18 所 示 。 


图 5.18 ”网 站 灰 度 发 布 模型 


灰 度 发 布 也 常用 于 用 户 测 试 ， 即 在 部 分 服务 器 上 发 布 新 版 本 ， 其 
余 服务 器 保持 老 版 本 (或 者 发 布 男 一 个 版 本 ) ， 然 后 监控 用 户 操作 行 
为 ， 收 集 用 户 体验 报告 ， 比 较 用 户 对 两 个 版 本 的 满意 度 ， 以 确定 最 终 
的 发 布 版 本 。 这 种 手段 也 被 称 作 AB 测 试 。 


5.7 ”网 站 运行 监控 


“不 允许 没有 监控 的 系统 上 线 ”， 这 是 许多 网 站 架构 师 在 做 项 目 上 
线 评审 时 常 说 的 一 句 话 。 网 站 运行 监控 对 于 网 站 运 维 和 架构 设计 优化 
至 关 重 要 ， 运 维 没 有 监控 的 网 站 ， 犹 如 驾驶 没有 仪表 的 飞机 。 盲 人 骑 
瞎 马 ， 夜 半 临 深渊 而 不 知 ， 生 死 尚且 未 卜 ， 提 高 可 用 性 、 减 少 故 障 率 
束 更 无 从 做 起 了 。 


5.7.1 ”监控 数据 采集 


广义 上 的 网 站 监控 涵盖 所 有 非 直 接 业 务 行为 的 数据 采集 与 管理 ， 
包括 供 数据 分 析 师 和 产品 设计 师 使 用 的 网 站 用 户 行 为 日 志 、 业 务 运行 
数据 ， 以 及 供 运 维 工程 师 和 开发 工程 师 使 用 的 系统 性 能 数据 等 。 


1。 用户 行 为 日 志 收 集 


用 户 行为 日 志 指 用 户 在 浏览 器 上 所 做 的 所 有 操作 及 其 所 在 的 操作 
环境 ， 包 括 用 户 操 作 系统 与 浏览 器 版 本 信息 ，IP 地 址 、 页 面 访问 路 
径 、 页 面 停留 时 间 等 ， 这 些 数 据 对 统计 网 站 PV/UV 指 标 、 分 析 用 户 行 
为 、 优 化 网 站 设计 、 个 性 化 营销 与 推荐 等 非常 重要 。 


具体 用 户 行 为 日 志 收 集 手 段 有 两 种 。 


服务 器 端 日 志 收 集 。 这 个 方案 比较 简单 ，Apache 等 几乎 所 有 Web 
服务 器 都 具备 日 志 记录 功能 ， 可 以 记录 大 部 分 用 户 行为 日 志 ， 开 启 
Web 服 务 器 的 日 志 记录 功能 即 可 。 其 缺点 是 可 能 会 出 现 信息 失真 ， 如 
IP 地 址 是 代理 服务 器 地 址 而 不 是 用 户 真实 IP; 无 法 识别 访问 路 径 等 。 


客户 端 浏 览 器 日 志 收集 。 利用 页 面 能 入 专门 的 JavaScript 脚 本 可 以 
收集 用 户 真 实 的 操作 行为 ， 因 此 比 服 务 器 日 志 收 集 更 加 精准 。 其 缺点 
是 比较 麻烦 ， 需 要 在 页 面 佬 入 特定 的 JavaScript 脚 本 来 完成 。 


此 外 ， 大 型 网 站 的 用 户 日 志 数 据 量 惊人 ， 数 据 存储 与 计算 压力 很 
大 ， 目 前 许多 网 站 逐步 开发 基于 实时 计算 框架 Storm 的 日 志 统计 与 分 析 
工具 。 


2. 服务 器 性 能 监控 


收集 服务 器 性 能 指标 ， 如 系统 Load、 内 存 占 用 、 磁 盘 IO、 网 络 IO 
等 对 尽早 做 出 故障 预警 ， 及 时 判断 应 用 状况 ， 防 患 于 未 然 ， 将 故障 扼 
杀 在 硼 芽 时 期 非常 重要 。 此 外 根据 性 能 监控 数据 ， 运 维 工 程 师 可 以 合 
理 安排 服务 器 集群 规模 ， 架 构 师 及 时 改善 系统 性 能 及 调整 系统 伸缩 性 
策略 。 


目前 网 站 使 用 比较 广泛 的 开源 性 能 监控 工具 是 Ganglia， 它 支持 大 
规模 服务 器 集群 ， 并 支持 以 图 形 的 方式 在 浏览 器 展示 实时 性 能 曲线 。 


3。 运行 数据 报告 


除了 服务 器 系统 性 能 监控 ， 网 站 还 需要 监控 一 些 与 具体 业务 场景 
相关 的 技术 和 业务 指标 ， 比 如 缓冲 命中 率 、 平 均 响 应 延迟 时 间 、 每 分 
钟 发 送 邮 件数 目 、 待 处 理 的 任务 总 数 等 。 


对 于 服务 器 性 能 监控 ， 网 站 运 维 人 员 可 以 在 初始 化 系统 时 统一 部 
署 ， 应 用 程序 开发 完全 不 关心 服务 器 性 能 监控 。 而 运行 数据 需要 在 具 


体 程序 中 采集 并 报告 ， 汇 总 后 统一 显示 ， 应 用 程序 需要 在 代码 中 处 理 
运行 数据 来 集 的 逻辑 。 


5.7.2 ”监控 管理 


监控 数据 采集 后 ， 除 了 用 作 系 统 性 能 评估 、 集 群 规模 伸缩 性 预测 
等 ， 还 可 以 根据 实时 监控 数据 进行 风险 预警 ， 并 对 服务 器 进行 失效 转 
移 ， 目 动 负载 调整 ， 最 大 化 利用 集群 所 有 机 器 的 资产 。 


系统 报警 


在 服务 器 运行 正常 的 情况 下 ， 其 各 项 监控 指标 基本 稳定 在 一 个 特 
定 水 平 ， 如 果 这 些 指标 超过 某 个 阐 值 ， 就 意味 着 系统 可 能 将 要 出 现 故 
障 ， 这 时 就 需要 对 相关 人 员 报 警 ， 及 时 采取 措施 ， 在 故障 还 未 真正 发 
生 时 就 将 其 扼杀 在 萌芽 状态 。 


监控 管理 系统 可 以 配置 报警 阐 值 和 值守 人 员 的 联系 方式 ， 报 警方 
式 除了 邮件 ， 即 时 通信 工具 ， 还 可 以 配置 手机 短信 ， 语 音 报警 ， 系 统 
发 生 报 警 时 ， 工 程 师 即 使 在 千里 之 外 、 夜 里 睡觉 也 能 被 及 时 通知 ， 迅 
速 响应 。 


失效 转移 


除了 应 用 程序 访问 失败 时 进行 失效 转移 ， 监 控 系统 还 可 以 在 发 现 
故障 的 情况 下 主动 通知 应 用 ， 进 行 失 效 转移 。 


自动 优雅 降级 


优雅 降级 是 指 网 站 为 了 应 付 突然 爆发 的 访问 高 峰 ， 主 动 关闭 部 分 
功能 ， 释 放 部 分 系统 资源 ， 保 证 网 站 核心 功能 正 单 访问 的 一 个 手段 。 


淘宝 每 年 一 次 的 “ 双 十 一 ”促销 活动 主动 关闭 “评价 ” “确认 收 货 ” 等 非 
核心 功能 ， 以 保证 交易 功能 的 正常 进行 ， 就 可 以 看 作 是 一 种 优雅 降 
级 。 


网 站 在 监控 管理 基础 之 上 实现 自动 优雅 降级 ， 是 网 站 柔性 架构 的 
理想 状态 : 监控 系统 实时 监控 所 有 服务 器 的 运行 状况 ， 根 据 监 控 参 数 
判断 应 用 访问 负载 情况 ， 如 果 发 现 部 分 应 用 负载 过 高 ， 而 部 分 应 用 负 
载 过 低 ， 就 会 适当 御 载 低 负载 应 用 部 分 服务 器 ， 重 新 安装 启动 部 分 高 
负载 应 用 ， 使 应 用 负载 总 体 均衡 ， 如 果 所 有 应 用 负载 都 很 高 ， 而 且 负 
载 压力 还 在 继续 增加 ， 就 会 自动 关闭 部 分 非 重要 功能 ， 保 证 核心 功能 
正常 运行 。 


5.8 “小 结 


对 公司 而 言 ， 可 用 性 关系 网 站 的 生死 存亡 。 对 个 人 而 言 ， 可 用 性 
天 系 到 目 己 的 绩效 升迁 。 工 程 师 对 架构 做 了 许多 优化 、 对 代码 做 了 很 
多 重 构 ， 对 性 能 、 扩 展 性 、 伸 绾 性 做 了 很 多 改善 ， 但 别人 未 必 能 直观 
地 感受 到 ， 也 许 你 的 直接 领导 都 不 知道 你 做 的 这 些 意义 何在 。 但 如 果 
你 负责 的 产品 出 了 重大 故障 ，CEO 都 会 知道 你 的 名 字 。 事 物 总 是 先 求 
生存 ， 然 后 求 发 展 。 保 证 网 站 可 用 ， 万 无 一 失 ， 任 重 而 道 远 。 


6 ”了 永 无 止境 : 网 站 的 伸缩 性 染 构 


所 谓 网 站 的 伸缩 性 是 指 不 需要 改变 网 站 的 软 硬 件 设计 ， 仅 仅 通过 
改变 部 署 的 服务 器 数量 就 可 以 扩大 或 者 缩小 网 站 的 服务 处 理 能 力 。 


京东 网 (www.360buy.com) 在 2011 年 年 末 的 图 书 促销 活动 中 ， 由 
于 优惠 幅度 大 引得 大 量 买 家 访问 ， 结 果 导 致 网 站 服务 不 可 用 ， 大 部 分 
用 户 在 提交 订单 后 ， 页 面 显示 “Service is too busy”。 当天 上 晚上， 京东 网 
老板 刘强 东 在 微 博 发 布 消 息 称 ， 已 购买 多 台 服 务 器 以 增加 交易 处 理 能 
力 ， 第 二 天 继续 促销 一 天 。 结 果 第 二 天 ， 用 户 在 提交 订单 后 ， 页 面 继 
续 是 “Service is too busy”。 显 然 京 东 网 当时 的 系统 伸缩 能 力 较 弱 ， 特 别 
是 订单 处 理子 系统 几乎 没有 什么 伸缩 能 力 。 


与 这 些 缺乏 伸缩 能 力 、 关 键 时 候 掉 链子 的 案例 相对 应 的 是 淘宝 网 
2012 年 “ 双 十 一 ”的 促销 活动 ， 在 活动 开始 的 第 一 分 钟 ， 即 有 1000 万 独 
立 用 户 访问 网 站 ， 当 天 成 功 交易 的 订单 总 额 达 191 亿 ， 昌 然 淘宝 网 及 支 
付 宝 网 站 出 现 了 一 些 问题 ， 但 系统 总 体 可 用 ， 绝 大 部 分 交易 顺利 完 
成 。 


大 型 网 站 的 “大 型 ”， 在 用 户 层面 可 以 理解 为 大 量 用户 及 大 量 访 
问 ， 如 Facebook 有 超过 10 亿 用 户 ; 在 功能 方面 可 以 理解 为 功能 庞杂 、 
产品 众多 ， 如 腾讯 有 超过 1600 种 产品 ; 在 扩 术 层面 可 以 理解 为 网 站 需 
要 部 署 大 量 的 服务 器 ， 如 Google 大 约 有 近 100 万 人 台 服 务 器 。 


本 书 开篇 曾经 讨论 过 ， 大 型 网 站 不 是 一 开始 就 是 大 型 网 站 的 ， 而 
是 从 小 型 网 站 逐步 演化 而 来 的 ，Google 诞 生 的 时 候 也 才 只 有 一 台 服 务 
器 。 设 计 一 个 大 型 网 站 或 者 一 个 大 型 软件 系统 ， 和 将 一 个 小 网 站 逐 湖 


演化 成 一 个 大 型 网 站 ， 其 技术 方案 是 完全 不 同 的 。 前 者 如 传统 的 银行 
系统 ， 在 设计 之 初 就 决定 了 系统 的 规模 ， 如 要 服务 的 用 户 数 、 要 处 理 
的 交易 数 等 ， 然 后 采购 大 型 计算 机 等 昂贵 的 设备 ， 将 软件 系统 部 署 在 
上 面 ， 即 成 为 一 个 大 型 系统 ， 有 朝 一 日 这 个 大 型 系统 也 不 能 满足 需求 
了 ， 融 化 更 多 的 钱 打造 一 个 更 大 型 的 系统 。 而 网 站 一 开始 不 可 能 规划 
出 目 己 的 规模 ， 也 不 可 能 有 那么 多 钱 去 开发 一 个 大 型 系统 ， 更 不 可 能 
到 了 某 个 阶段 再 重新 打造 一 个 系统 ， 只 能 摸 着 石头 过 河 ， 从 一 台 廉 价 
的 PC 服务 器 开始 自己 的 大 型 系统 演化 之 路 。 


在 这 个 渐进 式 的 演化 过 程 中 ， 最 重要 的 技术 手段 就 是 使 用 服务 器 
集群 ， 通 过 不 断 地 同 集 群 中 添加 服务 器 来 增强 整个 集群 的 处 理 能 力 。 
这 就 是 网 站 系统 的 伸缩 性 架构 ， 只 要 技术 上 能 做 到 向 集群 中 加 入 服务 
器 的 数量 和 集群 的 处 理 能 力 成 线性 天 系 ， 那 么 网 站 就 可 以 以 此 手段 不 
断 提 升 目 己 的 规模 ， 从 一 个 服务 几 十 入 的 小 网 站 发 展 成 服务 几 十 亿 人 
的 大 网 站 ， 从 只 能 存储 几 个 G 图 片 的 小 网 站 发 展 成 存储 几 百 P 图 片 的 大 
网 站 。 


这 个 演化 过 程 总 体 来 说 是 渐进 式 的 ， 而 且 总 是 在 “ 伸 ”， 也 就 是 
说 ， 网 站 的 规模 和 服务 器 的 规模 总 是 在 不 断 扩 大 (通常 ， 一 个 需 
“ 缩 ” 的 网 站 可 能 已 经 无 法 经 营 下 去 了 ) 。 但 是 这 个 过 程 也 可 能 因为 运 
营 上 的 需要 而 出 现 脉冲 ， 比 如 前 面 案例 中 提 到 的 电 商 网 站 的 促销 活 
动 : 在 某 个 短 时 间 内 ， 网 站 的 访问 量 和 交易 规模 突然 爆发 式 增长 ， 然 
后 又 回归 正常 状态 。 这 时 就 需要 网 站 的 技术 架构 具有 极 好 的 伸缩 性 
活动 期 间 向 服务 器 集群 中 加 入 更 多 服务 器 〈 及 向 网 络 服务 商 租借 
更 多 的 网 络 带宽 ) 以 满足 用 户 访问 ， 活 动 结束 后 又 将 这 些 服务 器 下 线 
以 节约 成 本 。 


国内 有 许多 传统 企业 * 触 网 ”， 将 传统 业务 搬 上 互联 网 ， 
这 是 一 件 值 得 称道 的 事 ， 传 统 行 业 与 互联 网 结合 将 会 创造 出 
新 的 经 济 模式 ， 改 善人 们 的 生活 。 但 遗憾 的 是 ， 有 些 传统 企 
业 将 自己 的 管理 模式 和 经 营 理念 也 照搬 到 互联 网 领域 一 一 在 
技术 方面 的 表现 就 是 一 开始 就 企图 打造 一 个 大 型 网 站 。 


6.1 网 站 架构 的 伸缩 性 设计 


回顾 网 站 架构 发 展 历程 ， 网 站 架构 发 展 史 就 是 一 部 不 断 向 网 站 添 
加 服务 器 的 历史 。 只 要 工程 师 能 向 网 站 的 服务 器 集群 中 添加 新 的 机 

， 只 要 新 添加 的 服务 器 能 线性 提高 网 站 的 整体 服务 处 理 能 力 ， 网 站 
就 无 需 为 不 断 增 长 的 用 户 和 访问 而 焦虑 。 


一 般 说 来 ， 网 站 的 伸缩 性 设计 可 分 成 两 类 ， 一 类 是 根据 功能 进行 
物理 分 离 实 现 伸缩 ， 一 类 是 单一 功能 通过 集群 实现 伸缩 。 前 者 是 不 同 
的 服务 器 部 署 不 同 的 服务 ， 提 供 不 同 的 功能 ; 后 者 是 集群 内 的 多 台 服 
务 器 部 署 相同 的 服务 ， 提 供 相 同 的 功能 。 

6.1.1 不 同 功能 进行 物理 分 离 实现 伸缩 


网 站 发 展 早期 一 一 通过 增加 服务 器 提高 网 站 处 理 能 力 时 ， 新 增 服 
务 器 总 是 从 现 有 服务 器 中 分 离 出 部 分 功能 和 服务 ， 如 图 6.1 所 示 。 


单一 服务 器 处 理 所 有 服务 


数据 库 从 应 用 服务 器 分 高 | 


缓存 从 应 用 服务 严 分 高 


= Le 


静 坊 资源 从 应 用 服务 眉 分 离 


图 6.1 通过 物理 分 离 实 现 服务 器 伸缩 


每 次 分 离 都 会 有 更 多 的 服务 器 加 入 了 网站， 使 用 新 增 的 服务 器 处 理 
某 种 特定 服务 。 事 实 上 ， 通 过 物理 上 分 离 不 同 的 网 站 功能 ， 实 现 网 站 


伸缩 性 的 手段 ， 不 仅 可 以 用 在 网 站 发 展 早期 ， 而 且 可 以 在 网 站 发 展 的 
任何 阶段 使 用 。 具 体 又 可 分 成 如 下 两 种 情况 。 


纵向 分 离 (分 层 后 分 离 ) : 将 业务 处 理 流程 上 的 不 同 部 分 分 离 部 
署 ， 实 现 系统 伸缩 性 ， 如 图 6.2 所 示 。 


网 站 有 具体 产品 


可 复 用 业务 服务 


基础 技术 服务 


数据 库 


图 6.2 ”通过 纵向 分 离 部 署 实现 系统 伸缩 性 


横向 分 离 (业务 分 割 后 分 离 ) : 将 不 同 的 业务 模块 分 离 部 署 ， 实 
现 系统 伸缩 性 ， 如 图 6.3 所 示 。 


下 读 北 料 
下 讯 半 将 
所 村 灌 % 


图 6.3 ”通过 横向 分 离 部 署 实现 系统 伸缩 性 


横向 分 离 的 粒度 可 以 非常 小 ， 甚 至 可 以 一 个 关键 网 页 部 署 一 个 独 
立 服 务 ， 比 如 对 于 电 商 网 站 非常 重要 的 产品 详情 页 面 ， 丙 铺 页 面 ， 搜 
索 列 表 页 面 ， 每 个 页 面 都 可 以 独立 部 署 ， 专 门 维护 。 


6.1.2 单一 功能 通过 集群 规模 实现 伸缩 


将 不 同 功 能 分 离 部 署 可 以 实现 一 定 程度 的 伸缩 性 ， 但 是 随 着 网 站 
访问 量 的 逐步 增加 ， 即 使 分 离 到 最 小 粒度 的 独立 部 署 ， 单 一 的 服务 器 
也 不 能 满足 业务 规模 的 要 求 。 因 此 必须 使 用 服务 器 集群 ， 即 将 相同 服 
务 部 署 在 多 台 服 务 器 上 构成 一 个 集群 整体 对 外 提供 服务 。 


当 一 头 牛 拉 不 动车 的 时 候 ， 不 要 去 寻找 一 头 更 强壮 的 
牛 ， 而 是 用 两 头 牛 来 拉 车 。 


以 搜索 服务 器 为 例 ， 如 果 一 台 服 务 器 可 以 提供 每 秒 1000 次 的 请 求 
服务 ， 即 QPS (Query Per Second) 为 1000。 那 么 如 果 网 站 高 峰 时 每 秒 
搜索 访问 量 为 10000， 就 需要 部 署 10 台 服务 器 构成 一 个 集群 。 若 以 缓存 
服务 器 为 例 ， 如 果 每 台 服 务 器 可 缓存 40GB 数 据 ， 那 么 要 缓存 100GB 数 
据 ， 就 需要 部 署 3 台 服务 器 构成 一 个 集群 。 当 然 这 些 例 子 的 计算 都 是 简 
化 的 ， 事 实 上 ， 计 算 一 个 服务 的 集群 规模 ， 需 要 同时 考虑 其 对 可 用 
性 、 性 能 的 影响 及 关联 服务 集群 的 影响 。 


具体 来 说 ， 集 群 伸缩 性 又 可 分 为 应 用 服务 器 集群 伸缩 性 和 数据 服 
务 器 集群 伸缩 性 。 这 两 种 集群 由 于 对 数据 状态 管理 的 不 同 ， 技 术 实现 
也 有 非常 大 的 区 别 。 而 数据 服务 器 集群 也 可 分 为 缓存 数据 服务 器 集群 
和 存储 数据 服务 器 集群 ， 这 两 种 集群 的 伸缩 性 设计 也 不 大 相同 。 


6.2 ”应 用 服务 器 集群 的 伸缩 性 设计 


我 们 在 本 书 第 5 章 提 到 ， 应 用 服务 器 应 该 设计 成 无 状态 的 ， 即 应 用 
服务 器 不 存储 请 求 上 下 文 信息 ， 如 果 将 部 署 有 相同 应 用 的 服务 器 组 成 
一 个 集群 ， 每 次 用 户 请 求 都 可 以 发 送 到 集群 中 任意 一 台 服 务 器 上 去 处 
理 ， 任 何 一 台 服 务 器 的 处 理 结果 都 是 相同 的 。 这 样 只 要 能 将 用 户 请 求 
按照 某 种 规则 分 发 到 集群 的 不 同 服务 器 上 ， 就 可 以 构成 一 个 应 用 服务 
器 集群 ， 每 个 用 户 的 每 个 请 求 都 可 能 落 在 不 同 的 服务 器 上 。 如 图 6.4 所 
示 。 


Web 服 务 器 
集群 


时 用 户 改 起 访问 请 求 


用 户 浏览 器 


图 6.4 ”负载 均衡 实现 应 用 服务 器 伸缩 性 


如 果 HTTP 请 求 分 发 闭 置 可 以 感知 或 者 可 以 配置 集群 的 服务 器 数 
量 ， 可 以 及 时 发 现 集群 中 新 上 线 或 下 线 的 服务 器 ， 并 能 向 新 上 线 的 服 
务 器 分 发 请 求 ， 停 止 向 已 下 线 的 服务 器 分 发 请 求 ， 那 么 就 实现 了 应 用 
服务 器 集群 的 伸缩 性 。 


这 里 ， 这 个 HTTP 请 求 分 发 装置 被 称 作 负 载 均衡 服务 器 。 


负载 均衡 是 网 站 必 不 可 少 的 基础 技术 手段 ， 不 但 可 以 实现 网 站 的 
伸缩 性 ， 同 时 还 改善 网 站 的 可 用 性 ， 可 谓 网 站 的 杀手 铀 之 一 。 具 体 的 
技术 实现 也 多 种 多 样 ， 从 硬件 实现 到 软件 实现 ， 从 商业 产品 到 开源 软 
件 ， 应 有 尽 有 ， 但 是 实现 负载 均衡 的 基础 技术 不 外 以 下 几 种 。 


6.2.1 HTTP 重 定向 负载 均衡 


利用 HTTP 重 定向 协议 实现 负载 均衡 。 如 图 6.5 所 示 。 


Web 服 务 器 
集 


1 用 户 访 问 
114. 100. 80. 10 


2 响应 重 定向 至 
112. 100. 80. 3 


SS 
NE 3 浏览 器 重新 请 求 ce 
用 户 浏 览 器 。 114. 100. 80. 3 114. 100. 80.3 


图 6.5 ”HTTP 重 定向 负载 均衡 原理 


HTTP 重 定向 服务 器 是 一 人 台 普 通 的 应 用 服务 器 ， 其 唯一 的 功能 就 是 
根据 用 户 的 HTTP 请 求 计算 一 台 真 实 的 Web 服务 器 地 址 ， 并 将 该 web 服 
务 器 地 址 写 入 HITP 重 定向 响应 中 〈 响 应 状态 码 302) 返回 给 用 户 浏览 
器 。 在 图 6.5 中 ， 浏 览 器 请 求 访 问 域名 www.mysite.com，DNS 服 务 器 解 


析 得 到 IP 地 址 是 114.100.80.10， 即 HTTP 重 定向 服务 器 的 IP 地 址 。 然 后 
浏览 器 通过 IP 地 址 114.100.80.10 访 问 HTTP 重 定向 负载 均衡 服务 器 后 ， 
服务 器 根据 某 种 负载 均衡 算法 计算 获得 一 台 实际 物理 服务 器 的 地 址 
(114.100.80.3) ， 构 造 一 个 包含 该 实际 物理 服务 器 地 址 的 重 定向 响应 
返回 给 浏览 器 ， 浏 览 器 自动 重新 请 求实 际 物理 服 务 器 的 IP 地 址 
114.100.80.3， 完 成 访问 。 


这 种 负载 均衡 方案 的 优点 是 比较 简单 。 缺 点 是 浏览 器 需要 两 次 请 
求 服务 器 才能 完成 一 次 访问 ， 性 能 较 差 ， 重 定向 服务 器 自身 的 处 理 能 
力 有 可 能 成 为 瓶颈 ， 整 个 集群 的 伸缩 性 规模 有 限 ， 使 用 HTTP302 响 应 
码 重 定向 ， 有 可 能 使 搜索 引擎 判断 为 SEO 作 蜂 ， 降 低 搜索 排名 。 因 此 
实践 中 使 用 这 种 方案 进行 负载 均衡 的 案例 并 不 多 见 。 


6.2.2 DNS 域名 解析 负载 均衡 


这 是 利用 DNS 处 理 域名 解析 请 求 的 同时 进行 负载 均衡 处 理 的 一 种 
方案 ， 如 图 6.6 所 示 。 


Web 服 务 器 
集群 


1 用 户 请 求 域名 解析 


Www. mysite. com 


2 返回 IP 地 址 
112. 100. 80. 3 


用 户 浏览 器 114. 100. 80. 3 四 
114. 100. 80. 3 


图 6.6 DNS 域名 解析 负载 均衡 原理 


在 DNS 服务 器 中 配置 多 个 A 记 录 ， 如 : wwwmysite.com IN A 
114.100.80.1、 www.mysite.com IN A 114.100.80.2、www.mysite.com IN 
A 114.100.80.3。 


每 次 域名 解析 请 求 都 会 根据 负载 均衡 算法 计算 一 个 不 同 的 人 P 地 址 
返回 ， 这 样 A 记 录 中 配置 的 多 个 服务 器 就 构成 一 个 集群 ， 并 可 以 实现 
负载 均衡 。 图 6.6 中 的 浏览 器 请 求解 析 域 名 www.mysite.com，DNS 根 据 
A 记 录 和 负载 均衡 算法 计算 得 到 一 个 卫 地 址 114.100.80.3， 并 返回 给 浏 
览 器 ;浏览 器 根据 该 IP 地 址 ， 访 问 真实 物理 服务 器 114.100.80.3。 


DNS 域 名 解析 负载 均衡 的 优点 是 将 负载 均衡 的 工作 转交 给 DNS， 
省 挤 了 网 站 管理 维护 负载 均衡 服务 器 的 麻烦 ， 同 时 许多 DNS 还 支持 基 
于 地 理 位 置 的 域名 解析 ， 即 会 将 域名 解析 成 距离 用 户 地 理 最 近 的 一 个 
服务 器 地 址 ， 这 样 可 加 快 用 户 访问 速度 ， 改 善 性 能 。 但 是 DNS 域名 解 


析 负 载 均 衡 也 有 和 缺 点， 就 是 目前 的 DNS 是 多 级 解析 ， 每 一 级 DNS 都 可 
能 缓存 A 记录 ， 当 下 线 某 台 服务 器 后 ， 即 使 修改 了 DNS 的 A 记录 ， 要 使 
其 生效 也 需要 较 长 时 间 ， 这 上段 时 间 ，DNS 依 然 会 将 域名 解析 到 已 经 下 
线 的 服务 器 ， 导 致 用户 访 问 失败 ;而 且 DNS 负 和 载 均衡 的 控制 权 在 域名 
服务 商 那 里 ， 网 站 无 法 对 其 做 更 多 改善 和 更 强大 的 管理 。 


事实 上 ， 大 型 网 站 总 是 部 分 使 用 DNS 域名 解析 ， 利 用 域名 解析 作 
为 第 一 级 负载 均衡 手段 ， 即 域名 解析 得 到 的 一 组 服务 器 并 不 是 实际 提 
供 Web 服 务 的 物理 服务 器 ， 而 是 同样 提供 负载 均衡 服务 的 内 部 服务 
器 ， 这 组 内 部 负载 均衡 服务 器 再 进行 负载 均衡 ， 将 请 求 分 发 到 真实 的 
Web 服 务 器 上 。 


6.2.3” 反 向 代理 负载 均衡 


利用 反 向 代理 服务 器 进行 负载 均衡 ， 如 图 6.7 所 示 。 


Web 服 务 器 
集群 


2 请 求 转发 
10. 0.0.3 


友 向 代理 服务 器 
外 部 IP 114. 100. 80. 10 
内 部 IP 10.0.0.10 


图 6.7 反 向 代理 负载 均衡 原理 


前 面 我 们 提 到 利用 反 向 代理 缓存 资源 ， 以 改善 网 站 性 能 。 实 际 
上 ， 在 部 署 位 置 上 ， 反 向 代理 服务 器 处 于 Web 服 务 器 前 面 (这样 才 可 
能 缓存 Web 响 应 ， 加 速 访问 ) ， 这 个 位 置 也 正好 是 负载 均衡 服务 器 的 
位 置 ， 所 以 大 多 数 反 向 代理 服务 器 同时 提供 负载 均衡 的 功能 ， 管 理 一 
组 Web 服 务 器 ， 将 请 求 根 据 负载 均衡 算法 转发 到 不 同 Web 服 务 器 上 。 
Web 服 务 器 处 理 完 成 的 响应 也 需要 通过 反 向 代理 服务 器 返回 给 用 户 。 
由 于 Web 服 务 器 不 直接 对 外 提供 访问 ， 因 此 Web 服 务 器 不 需要 使 用 外 
部 了 P 地 址 ， 而 反 向 代理 服务 器 则 需要 配置 双 网 卡 和 内 部 外 部 两 套 了 地 
址 。 


图 6.7 中 ， 浏 览 器 访问 请 求 的 地 址 是 反 向 代理 服务 器 的 地 址 
114.100.80.10， 反 向 代理 服务 器 收 到 请 求 后 ， 根 据 负 载 均衡 算法 计算 
得 到 一 台 真 实物 理 服务 器 的 地 址 10.0.0.3， 并 将 请 求 转发 给 服务 器 。 
10.0.0.3 处 理 完 请 求 后 将 响应 返回 给 反 向 代理 服务 器 ， 反 向 代理 服务 器 
再 将 该 响应 返回 给 用 户 。 


由 于 反 向 代理 服务 器 转发 请 求 在 HITP 协 议 层 面 ， 因 此 也 叫 应 用 层 
负载 均衡 。 其 优点 是 和 反 向 代理 服务 器 功能 集成 在 一 起 ， 部 署 简单 。 
缺点 是 反 向 代理 服务 器 是 所 有 请 求 和 响应 的 中 转 站 ， 其 性 能 可 能 会 成 
为 湛 颈 。 


6.2.4” IP 负载 均衡 


在 网 络 层 通过 修改 请 求 目 标 地 址 进行 负载 均衡 ， 如 图 6.8 所 示 。 
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3 响应 数据 目的 地 址 志 
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图 6.8 ”IP 负载 均衡 原理 


用 户 请 求 数据 包 到 达 负 和 载 均衡 服务 器 114.100.80.10 后 ， 负 载 均衡 
服务 器 在 操作 系统 内 核 进程 获取 网 络 数据 包 ， 根 据 负载 均衡 算法 计算 
得 到 一 台 真 实 Web 服 务 器 10.0.0.1， 然 后 将 数据 目的 IP 地 址 修改 为 
10.0.0.1， 不 需要 通过 用 户 进程 处 理 。 真 实 Web 应 用 服务 器 处 理 完 成 
后 ， 响 应 数据 包 回 到 负载 均衡 服务 器 ， 负 载 均衡 服务 器 再 将 数据 包 源 
地 址 修改 为 自身 的 IP 地 址 (114.100.80.10) 发 送 给 用 户 浏览 器 。 


这 里 的 关键 在 于 真实 物理 Web 服 务 器 响应 数据 包 如 何 返回 给 负载 
均衡 服务 器 。 一 种 方案 是 负载 均衡 服务 器 在 修改 目的 站 地 址 的 同时 修 
改 源 地 址 ， 将 数据 包产 地 址 设 为 自身 IP， 即 源 地 址 转换 (SNAT) ， 这 
样 Web 服 务 器 的 响应 会 再 回 到 负载 均衡 服务 器 ， 另 一 种 方案 是 将 负载 
均衡 服务 器 同时 作为 真实 物理 服务 器 集群 的 网 关 服 务 器 ， 这 样 所 有 响 
应 数据 都 会 到 达 负 载 均衡 服务 器 。 


IP 负 载 均衡 在 内 核 进 程 完成 数据 分 发 ， 较 反 向 代理 负载 均衡 (在 
应 用 程序 中 分 发 数据 ) 有 更 好 的 处 理性 能 。 但 是 由 于 所 有 请 求 响应 都 
需要 经 过 负载 均衡 服务 器 ， 集 群 的 最 大 响应 数据 吞吐 量 不 得 不 受制 于 


负载 均衡 服务 器 网 卡带 宽 。 对 于 提供 下 载 服务 或 者 视频 服务 等 需要 传 
输 大量 数 据 的 网 站 而 言 ， 难 以 满足 需求 。 能 不 能 让 负载 均衡 服务 器 只 
分 发 请 求 ， 而 使 响应 数据 从 真实 物理 服务 器 直接 返回 给 用 户 呢 ? 


6.2.5 ”数据 链 路 层 负载 均衡 


顾名思义 ， 数 据 链 路 层 负 载 均衡 是 指 在 通信 协议 的 数据 链 路 层 修 
改 mac 地 址 进行 负载 均衡 ， 如 图 6.9 所 示 。 
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图 6.9 数据 链 路 层 负载 均衡 原理 


这 种 数据 传输 方式 又 称 作 三 角 传 输 模 式 ， 负 载 均 衡 效 据 分 发 过 程 
中 不 修改 IP 地 址 ， 只 修改 目的 mac 地 址 ， 通 过 配置 真实 物理 服务 器 集 
群 所 有 机 器 虚拟 IP 和 负载 均衡 服务 器 IP 地 址 一 致 ， 从 而 达到 不 修改 数 
据 包 的 源 地 址 和 目的 地 址 就 可 以 进行 数据 分 发 的 目的 ， 由 于 实际 处 理 
请 求 的 真实 物理 服务 器 也 和 数据 请 求 目的 IP 一 致 ， 不 需要 通过 负载 均 
稀 服 务 器 进行 地 址 转换 ， 可 将 响应 数据 包 直 接 返 回 给 用 户 浏览 器 ， 避 
免 负载 均衡 服务 器 网 卡 融 宽 成 为 瓶颈 。 这 种 负载 均衡 方式 又 称 作 直接 


路 由 方式 (DR) 。 


在 图 6.9 中 ， 用 户 请 求 到 达 负 载 均衡 服务 器 114.100.80.10 后 ， 负 载 
均衡 服务 器 将 请 求 数据 的 目的 mac 地 址 修改 为 00:0c:29:d2， 并 不 修改 数 
目 包 目 标 IP 地 址 ， 由 于 Web 服 务 器 集群 所 有 服务 器 的 虚拟 IP 地 址 都 和 
负载 均 服 务 器 的 IP 地 址 相同 ， 因 此 数据 可 以 正常 传输 到 达 mac 地 址 
00:0c:29:d2 对 应 的 服务 器 ， 该 服务 器 处 理 完成 后 发 送 响 应 数据 到 网 站 
的 网 关 服 务 器 ， 网 关 服 务 器 直接 将 该 数据 包 发 送 到 用 户 浏览 器 (通过 
互联 网 ) ， 响 应 数据 不 需要 通过 负载 均衡 服务 器 。 


使 用 三 角 传 输 模 式 的 链 路 层 负载 均衡 是 目前 大 型 网 站 使 用 最 广 的 
一 种 负载 均衡 手段 。 在 Linux 平 台 上 最 好 的 链 路 层 负 载 均衡 开 产 产品 是 
LVS (Linux Virtual Server) 。 


6.2.6 ”负载 均衡 算法 
负载 均衡 服务 器 的 实现 可 以 分 成 两 个 部 分 : 


1. 根据 负载 均衡 算法 和 Web 服 务 器 列表 计算 得 到 集群 中 一 全 Web 
服务 器 的 地 址 。 


2. 将 请 求 数据 发 送 到 该 地 址 对 应 的 web 服务 器 上 。 


前 面 描述 了 如 何 将 请 求 数据 发 送 到 Web 服 务 器 ， 而 具体 的 负载 均 
衡 算法 通 冲 有 以 下 几 种 。 


轮 询 (Round Robin，RR) 


所 有 请 求 被 依次 分 发 到 每 台 应 用 服务 器 上 ， 即 每 台 服 务 器 需要 处 
理 的 请 求 数目 都 相同 ， 适 合 于 所 有 服务 器 硬件 都 相同 的 场景 。 


加 权 轮 询 (Weighted Round Robin, WRR) 


根据 应 用 服务 器 硬件 性 能 的 情况 ， 在 轮 询 的 基础 上 ， 按 照 配置 的 
权重 将 请 求 分 发 到 每 个 服务 器 ， 高 性 能 的 服务 器 能 分 配 更 多 请 求 。 


随机 (Random) 
请 求 被 随机 分 配 到 各 个 应 用 服务 器 ， 在 许多 场合 下 ， 这 种 方案 都 


很 简单 实用 ， 因 为 好 的 随机 数 本 身 就 很 均衡 。 即 使 应 用 服务 器 硬件 配 
置 不 同 ， 也 可 以 使 用 加 权 随 机 算法 。 


最 少 连接 (Least Connections) 


记录 每 个 应 用 服务 器 正在 处 理 的 连接 数 (请 求 数 ) ， 将 新 到 的 请 
求 分 发 到 最 少 连 接 的 服务 器 上 ， 应 该 说 ， 这 是 最 符合 负载 均衡 定义 的 
算法 。 同 样 ， 最 少 连接 算法 也 可 以 实现 加 权 最 少 连接 。 


源 地 址 散 列 (Source Hashing) 


根据 请 求 来 源 的 IP 地 址 进行 Hash 计 算 ， 得 到 应 用 服务 器 ， 这 样 来 
目 同 一 个 IP 地 址 的 请 求 总 在 同一 个 服务 器 上 人 处理， 该 请 求 的 上 下 文 信 
息 可 以 存储 在 这 人 台 服 务 器 上 ， 在 一 个 会 话 周 期 内 重复 使 用 ， 从 而 实现 
会 话 藉 洁 。 


6.3 ”分布 式 缓存 集群 的 伸缩 性 设计 


我 们 在 本 书 第 4 章 讨论 过 分 布 式 缓存 ， 不 同 于 应 用 服务 器 集群 的 伸 
缩 性 设计 ， 分 布 式 缓存 集群 的 伸缩 性 不 能 使 用 简单 的 负载 均衡 手段 来 
实现 。 


和 所 有 服务 器 都 部 署 相同 应 用 的 应 用 服务 器 集群 不 同 ， 分 布 式 缓 
存 服务 器 集群 中 不 同 服务 器 中 缓存 的 数据 各 不 相同 ， 缓 存 访问 请 求 不 
可 以 在 缓存 服务 器 集群 中 的 任意 一 台 处 理 ， 必 须 先 找到 缓存 有 需要 数 
据 的 服务 器 ， 然 后 才能 访问 。 这 个 特点 会 严重 制约 分 布 式 缓存 集群 的 
伸缩 性 设计 ， 因 为 新 上 线 的 缓存 服务 器 没有 缓存 任何 数据 ， 而 已 下 线 
的 缓存 服务 器 还 缓存 着 网 站 的 许多 热点 数据 。 


必须 让 新 上 线 的 缓存 服务 器 对 整个 分 布 式 缓存 集群 影响 最 小 ， 也 
就 是 说 新 加 入 缓存 服务 器 后 应 使 整个 缓存 服务 器 集群 中 已 经 缓存 的 数 
据 尽 可 能 还 被 访问 到 ， 这 是 分 布 式 缓存 集群 伸缩 性 设计 的 最 主要 目 
标 。 


6.3.1 Memcached 分 布 式 缓存 集群 的 访问 模型 
以 Memcached 为 代表 的 分 布 式 缓 存 ， 访 问 模 型 如 图 6.10 所 示 。 


<BEIJING,DATA> 
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图 6.10 ”Memcached 分 布 式 缓存 访问 模型 


应 用 程序 通过 Memcached 客 户 端 访问 Memcached 服 务 器 集群 ， 
Memcached 客 户 端 主要 由 一 组 API、Memcached 服 务 器 集群 路 由 算法 、 
Memcached 服 务 器 集群 列表 及 通信 模块 构成 。 


其 中 路 由 算法 负责 根据 应 用 程序 输入 的 缓存 数据 KEY 计 算得 到 应 
该 将 数据 写 入 到 Memcached 的 哪 台 服务 器 ( 写 缓存 ) 或 者 应 该 从 哪 台 
服务 器 读数 据 〈 读 缓存 ) 。 


一 个 典 的 型 缓存 写 操作 如 图 6.10 中 箭头 所 示 路 径 。 应 用 程序 输入 
需要 写 缓存 的 数据 路 <'BEIJING',DATA>，API 将 KEY (BEIJING') 输 
入 路 由 算法 模块 ， 路 由 算法 根据 KEY 和 Memcached 集 群 服务 器 列表 计 
算得 到 一 台 服 务 编号 (NODE1) ， 进 而 得 到 该 机 器 的 IP 地 址 和 端口 

(10.0.0.0:91000) 。API 调 用 通信 模块 和 编号 为 NODE1 的 服务 器 通 
信 ， 将 数据 的 <'BEIJING',DATA> 写 入 该 服务 器 。 完 成 一 次 分 布 式 缓存 
的 写 操 作 。 


读 缓存 的 过 程 和 写 缓存 一 样 ， 由 于 使 用 同样 的 路 由 算法 和 服务 器 
列表 ， 只 要 应 用 程序 提供 相同 的 KEY ('BEIJING') ，Memcached 客 户 


端 总 是 访问 相同 的 服务 器 (NODE1) 去 读 取 数 据 。 只 要 服务 器 还 缓存 
着 该 数据 ， 就 能 保证 缓存 命中 。 


6.3.2 ”Memcached 分 布 式 缓 存 集群 的 伸缩 性 挑战 


由 上 述 讨论 可 得 知 ， 在 Memcached 分 布 式 缓存 系统 中 ， 对 于 服务 
器 集群 的 管理 ， 路 由 算法 至 关 重 要 ， 和 负载 均衡 算法 一 样 ， 决 定 着 究 
竟 该 访问 集群 中 的 哪 台 服务 器 。 


简单 的 路 由 算法 可 以 使 用 余数 Hash: 用 服务 器 数目 除 以 缓存 数据 
KEY 的 Hash 值 ， 人 余数 为 服务 器 列表 下 标 编 号 。 假 设 图 6.10 
中 'BEUJING' 的 Hash 值 是 490806430 (Java 中 的 HashCode () 返回 
值 ) ， 用 服务 器 数目 3 除 以 该 值 ， 得 到 余数 1， 对 应 节点 NODE1。 由 于 
HashCode 具 有 随机 性 ， 因 此 使 用 余数 Hash 路 由 算法 可 保证 缓存 数据 在 
整个 Memcached 服 务 器 集群 中 比较 均衡 地 分 布 。 


对 余数 Hash 路 由 算法 稍 加 改进 ， 就 可 以 实现 和 负载 均衡 算法 中 加 
权 负 载 均衡 一 样 的 加 权 路 由 。 事 实 上 ， 如 果 不 需要 考虑 缓存 服务 器 集 
群 伸缩 性 ， 余 数 Hash 几 乎 可 以 满足 绝 大 多 数 的 缓存 路 由 需求 。 


但 是 ， 当 分 布 式 缓存 集群 需要 扩容 的 时 候 ， 事 情 就 变 得 环 手 了 。 


假设 由 于 业务 发 展 ， 网 站 需要 将 3 台 缓 存 服务 器 扩容 至 4 台 。 更 改 
服务 器 列表 ， 仍旧 使 用 余数 Hash， 用 4 除 以 'BEIJING' 的 Hash 值 
49080643 ， 人 余数 为 2， 对 应 服务 器 NODE2。 由 于 数据 。 
<'BEJING',DATA> 缓 存在 NODE1， 对 NODE2 的 读 缓 存 操作 失败 ， 绥 
存 没有 命中 。 


很 容易 就 可 以 计算 出 ，3 台 服务 器 扩容 至 4 台 服 务 器 ， 大 约 有 
75% (3/4) 被 缓存 了 的 数据 不 能 正确 命中 ， 随 着 服务 器 集群 规模 的 增 
大 ， 这 个 比例 线性 上 升 。 当 100 台 服务 器 的 集群 中 加 入 一 台新 服务 器 ， 
不 能 命中 的 概率 是 99% (N/ (N 十 1) ) 。 


这 个 结果 显然 是 不 能 接受 的 ， 在 网 站 业务 中 ， 大 部 分 的 业务 数据 
读 操作 请 求 事实 上 是 通过 缓存 获取 的 ， 只 有 人 少量 读 操作 请 求 会 访问 数 
据 库 ， 因 此 数据 库 的 负载 能 力 是 以 有 缓存 为 前 提 而 设计 的 。 当 大 部 分 
被 缓存 了 的 数据 因为 服务 器 扩容 而 不 能 正确 读 取 时 ， 这 些 数 据 访问 的 
压力 就 沙 到 了 数据 库 的 身上 ， 这 将 大 大 超过 数据 库 的 负载 能 力 ， 严 重 
的 可 能 会 导致 数据 库 宕 机 (这 种 情况 下 ， 不 能 简单 重启 数据 库 ， 网 站 
也 需要 较 长 时 间 才 能 逐渐 恢复 正常 。 详 见 本 书 第 13 章 。) 


本 来 加 入 新 的 缓存 服务 器 是 为 了 降低 效 据 库 的 负载 压 
力 ， 但 是 操作 不 当 却 导致 了 数据 库 的 朋 冲 。 如 果 不 对 问题 和 
解决 方案 有 透彻 了 解 ， 网 站 技术 总 有 想不到 的 陷阱 让 架构 师 
一 脚 踩 空 。 遇 到 这 种 情况 ， 用 某 网 站 一 位 资深 染 构 师 的 话 
说 ， 就 是 “一 股 寒气 从 脚底 板 富 到 了 脑门 心 ”。 


一 种 解决 办 法 是 在 网 站 访问 量 最 少 的 时 候 扩 容 缓 存 服 务 器 集群 ， 
这 时 候 对 数据 库 的 负载 冲击 最 小 。 然 后 通过 模拟 请 求 的 方法 逐渐 预 热 
缓存 ， 使 缓存 服务 器 中 的 数据 重新 分 布 。 但 是 这 种 方案 对 业务 场景 
要 求 ， 还 需要 技术 团队 通宵 加 班 〈 网 站 访问 低谷 通常 是 在 半夜 ) 。 


能 不 能 通过 改进 路 由 算法 ， 使 得 新 加 入 的 服务 器 不 影响 大 部 分 缓 
存 数据 的 正确 命中 呢 ? 目前 比较 流行 的 算法 是 一 致 性 Hash 算 法 。 


6.3.3 ”分布 式 缓存 的 一 致 性 Hash 算 法 


一 致 性 Hash 算 法 通过 一 个 叫 作 一 致 性 Hash 环 的 数据 结构 实现 KEY 
到 缓存 服务 器 的 Hash 映 射 ， 如 图 6.11 所 示 。 


图 6.11 一 致 性 Hash 算 法 原理 


具体 算法 过 程 为 : 先 构造 一 个 长 度 为 0~232 的 整数 环 (这 个 环 被 
称 作 一 致 性 Hash 环 ) ， 根 据 节 点 名 称 的 Hash 值 (其 分 布 范 围 同 样 为 
0~23? ) 将 缓存 服务 器 节点 放置 在 这 个 Hash 环 上 。 然 后 根据 需要 缓存 
的 数据 的 KEY 值 计算 得 到 其 Hash 值 (其 分 布 范 围 也 同样 为 0~232 ) ， 
然后 在 Hash 环 上 顺 时 针 查 找 距离 这 个 KEY 的 Hash 值 最 近 的 缓存 服务 器 
节点 ， 完 成 KEY 到 服务 器 的 Hash 映 射 查找 。 


在 图 6.11 中 ， 假 设 NODE1 的 Hash 值 为 3,594,963,423，NODE2 的 
Hash 值 为 1,845,328,979， 而 KEY0 的 Hash 值 为 2,534,256,785， 那 么 
KEY0 在 环 上 顺 时 针 查 找 ， 找 到 的 最 近 的 节点 就 是 NODE1。 


当 缓 存 服务 器 集群 需要 扩容 的 时 候 ， 只 需要 将 新 加 入 的 节点 名 称 
(NODE3) 的 Hash 值 放 入 一 致 性 Hash 环 中 ， 由 于 KEY 是 顺 时 针 查 找 距 
离 其 最 近 的 节点 ， 因 此 新 加 入 的 节点 只 影响 整个 环 中 的 一 小 段 ， 如 图 
6.12 中 识 色 一 段 。 


图 6.12 ”增加 节点 后 的 一 致 性 Hash 环 结构 


假设 NODE3 的 Hash 值 是 2,790,324,235， 那 么 加 入 NODE3 后 ， 
KEY0 (Hash 值 2,534，256,785) 顺 时 针 查 找 得 到 的 节点 就 是 NODE3。 


图 6.12 中 ， 加 入 新 节点 NODE3 后 ， 原 来 的 KEY 大 部 分 还 能 继续 计 
算 到 原来 的 节点 ， 只 有 KEY3、KEY0 从 原来 的 NODE1 重 新 计算 到 
NODE3。 这 样 就 能 保证 大 部 分 被 缓存 的 数据 还 可 以 继续 命中 。3 台 服 
务 器 扩容 至 4 台 服 务 器 ， 可 以 继续 命中 原 有 缓存 数据 的 概率 是 75% ， 远 
高 于 余数 Hash 的 25%， 而 且 随 着 集群 规模 越 大 ， 继 续 命 中 原 有 缓存 数 
据 的 概率 也 逐渐 增 大 ，100 台 服务 器 扩容 增加 1 台 服 务 器 ， 继 续 命中 的 
概率 是 99%。 虽然 仍 有 小 部 分 数据 缓存 在 服务 器 中 不 能 被 读 到 ， 但 是 


这 个 比例 足够 小 ， 通 过 访问 数据 库 获 取 也 不 会 对 数据 库 造 成 致命 的 负 
载 压力 。 


具体 应 用 中 ， 这 个 长 度 为 2* 的 一 致 性 Hash 环 通常 使 用 二 叉 查 找 
树 实现 ，Hash 碍 找 过 程 实 际 上 是 在 二 叉 查 找 树 中 查找 不 小 于 查找 数 的 
最 小 数值 。 当 然 这 个 二 叉 树 的 最 右边 叶子 节点 和 最 左边 的 叶子 节点 相 
连接 ， 构 成 环 。 


但 是 ， 上 面 描述 的 算法 过 程 还 存在 一 个 小 小 的 问题 。 


新 加 入 的 节点 NODE3 只 影响 了 原来 的 节点 NODE1， 也 就 是 说 一 
部 分 原来 需要 访问 NODE1 的 缓存 数据 现在 需要 访问 NODE3 (概率 上 
是 50%) 。 但 是 原来 的 节点 NODE0 和 NODE2 不 受 影 响 ， 这 就 意味 着 
NODE0 和 NODE2 缓 存 数 据 量 和 负载 讨 力 是 NODE1 与 NODE3 的 两 倍 。 
如 果 4 台 机 器 的 性 能 是 一 样 的， 那么 这 种 结果 显然 不 是 我 们 需要 的 。 


怎么 办 ? 


计算 机 领域 有 句 话 : 计算 机 的 任何 问题 都 可 以 通过 增加 一 个 虚拟 
层 来 解决 。 计 算 机 硬件 、 计 算 机 网 络 、 计 算 机 软件 都 莫不 如 此 。 计 算 
机 网 络 的 7 层 协 议 ， 每 一 层 都 可 以 看 作 是 下 一 层 的 虚拟 层 ， 计 算 机 操作 
系统 可 以 看 作 是 计算 机 硬件 的 虚拟 层 ; Java 虚 拟 机 可 以 看 作 是 操作 系 
统 的 虚拟 层 ， 分 层 的 计算 机 软件 架构 事实 上 也 是 利用 虚拟 层 的 概念 。 


解决 上 述 一 致 性 Hash 算 法 市 来 的 负载 不 均衡 问题 ， 也 可 以 通过 使 
用 虚拟 层 的 手段 : 将 每 台 物 理 缓存 服务 器 虚拟 为 一 组 虚拟 缓存 服务 
器 ， 将 虚拟 服务 器 的 Hash 值 放置 在 Hash 环 上 ，KEY 在 环 上 先 找到 虚拟 
服务 器 节点 ， 再 得 到 物理 服务 器 的 信息 。 


这 样 新 加 入 物理 服务 器 节点 时 ， 是 将 一 组 虚拟 节点 加 入 环 中 ， 如 
果 虚 拟 节 点 的 数目 足够 多 ， 这 组 虚拟 节点 将 会 影响 同样 多 数目 的 已 经 
在 环 上 存在 的 虚拟 节点 ， 这 些 已 经 存在 的 虚拟 节点 又 对 应 不 同 的 物理 
节点 。 最 终 的 结果 是 : 新 加 入 一 台 缓 存 服务 器 ， 将 会 较为 均匀 地 影响 
原来 集群 中 已 经 人 存在 的 所 有 服务 器 ， 也 就 是 说 分 摊 原 有 缓存 服务 器 集 
群 中 所 有 服务 器 的 一 小 部 分 负载 ， 其 总 的 影响 范围 和 上 面 讨 论 过 的 相 
同 。 如 图 6.13 所 示 。 
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图 6.13 ”使 用 虚拟 节点 的 一 致 性 Hash 环 


在 图 6.13 中 ， 新 加 入 节点 NODE3 对 应 的 一 组 虚拟 节点 为 V30， 
V31，V32， 加 入 到 一 致 性 Hash 环 上 后 ， 影 响 V01，V12，V22 三 个 虚 
拟 节点 ， 而 这 三 个 虚拟 节点 分 别 对 应 NODE0，NODE1，NODE2 三 个 
物理 节点 。 最 终 Memcached 集 群 中 加 入 一 个 节点 ， 但 是 同时 影响 到 集 
群 中 已 存在 的 三 个 物理 节点 ， 在 理想 情况 下 ， 每 个 物理 节点 受 影响 的 
数据 量 〈 还 在 缓存 中 ， 但 是 不 能 被 访问 到 数据 ) 为 其 节点 缓存 数据 量 


的 1/4 (X/ (N 十 X) ，N 为 原 有 物理 节点 数 ,，X 为 新 加 入 物理 节点 
数 ) ， 也 就 是 集群 中 已 经 被 缓存 的 数据 有 75% 可 以 被 继续 命中 ， 和 未 
使 用 虚拟 节点 的 一 致 性 Hash 算 法 结果 相同 。 


显然 每 个 物理 节点 对 应 的 虚拟 节点 越 多 ， 各 个 物理 节点 之 间 的 负 
载 越 均衡 ， 新 加 入 物理 服务 器 对 原 有 的 物理 服务 器 的 影响 越 保持 一 致 
(这 就 是 一 致 性 Hash 这 个 名 称 的 由 来 ) 。 那 么 在 实践 中 ， 一 台 物 理 服 
务 器 虚拟 为 多 少 个 虚拟 服务 器 节 点 合适 呢 ? 太 多 会 影响 性 能 ， 太 少 又 
会 导致 负载 不 均衡 ， 一 般 说 来 ， 经 验 值 是 150， 当 然 根据 集群 规模 和 负 
载 均衡 的 精度 需求 ， 这 个 值 应 该 根据 具体 情况 具体 对 待 。 


6.4 数据 存储 服务 器 集群 的 伸缩 性 设计 


和 缓存 服务 器 集群 的 伸缩 性 设计 不 同 ， 数 据 存储 服务 器 集群 的 伸 
缩 性 对 数据 的 持久 性 和 可 用 性 提出 了 更 高 的 要 求 。 


缓存 的 目的 是 加 速 数据 读 取 的 速度 并 减轻 数据 存储 服务 器 的 负载 
压力 ， 因 此 部 分 缓存 数据 的 丢失 不 影响 业务 的 正常 处 理 ， 因 为 数据 还 
可 以 从 数据 库 等 存储 服务 器 上 获取 。 


而 数据 存储 服务 器 必须 保证 数据 的 可 靠 存 储 ， 任 何 情况 下 都 必须 
保证 数据 的 可 用 性 和 正确 性 。 因 此 缓存 服务 器 集群 的 伸缩 性 架构 方案 
不 能 直接 适用 于 数据 库 等 存储 服务 器 。 存 储 服务 器 集群 的 伸缩 性 设计 
相对 更 复杂 一 些 ， 具 体 说 来 ， 又 可 分 为 天 系数 据 库 集群 的 伸缩 性 设计 
和 NoSQL 数 据 库 的 伸 编 性 设计 。 


6.4.1 ”关系 数据 库 集群 的 伸缩 性 设计 


天 系数 据 库 凭借 其 简单 强大 的 SQL 和 众多 成 熟 的 商业 数据 库 产 
品 ， 占 据 了 从 企业 应 用 到 网 站 系统 的 大 部 分 业务 数据 存储 服务 。 市 场 
上 主要 的 关系 数据 都 支持 数据 复制 功能 ， 使 用 这 个 功能 可 以 对 数据 库 
进行 简单 伸缩 。 图 6.14 为 使 用 数据 复制 的 MySQL 集 群 伸缩 性 方案 。 
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图 6.14 ”MySQL 集群 伸缩 性 方案 


在 这 种 架构 中 ， 虽 然 多 台 服 务 器 部 署 MySQL 实 例 ， 但 是 它们 的 角 
色 有 主 从 之 分 ， 效 据 与 操作 都 在 主 服 务 器 上 ， 由 主 服务 器 将 效 据 同 步 
到 集群 中 其 他 从 服务 器 ， 数 据 读 操作 及 数据 分 析 等 离线 操作 在 从 服务 
器 上 进行 。 


除了 数据 库 主 从 读 写 分 离 ， 前 面 提 到 的 业务 分 割 模式 也 可 以 用 在 
效 据 库 ， 不 同业 务 效 据 表 部 署 在 不 同 的 效 据 库 集群 上 ， 即 俗称 的 效 据 
分 库 。 这 种 方式 的 制约 条 件 是 跨 库 的 表 不 能 进行 Join 操 作 。 


在 大 型 网 站 的 实际 应 用 中 ， 即 使 进行 了 分 库 和 主 从 复制 ， 对 一 些 
单 表 数据 仍然 很 大 的 表 ， 比 如 Facebook 的 用 户 数据 库 ， 淘 宝 的 商品 数 
据 库 ， 还 需要 进行 分 片 ， 将 一 张 表 拆 开 分 别 存 储 在 多 个 数据 库 中 。 


目前 网 站 在 线 业 务 应 用 中 比较 成 熟 的 支持 数据 分 片 的 分 布 式 关系 
数 据 库 产 品 主 要 有 开源 的 ” Amoeba 
( http://sourceforge.net/projects/amoeba/ ) 和 Cobar 


(http://code.alibabatech.com/wiki/display/cobar/Home) 。 这 两 个 产品 有 
相似 的 架构 设计 ， 以 Cobar 为 例 ， 部 署 模型 如 图 6.15 所 示 。 
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图 6.15 “Cobar 部 署 模型 


Cobar 是 一 个 分 布 式 关 系数 据 库 访问 代理 ， 介 于 应 用 服务 器 和 数据 
库 服 务 器 之 间 (Cobar 也 支持 非 独立 部 署 ， 以 lib 的 方式 和 应 用 程序 部 署 
在 一 起 ) 。 应 用 程序 通过 JDBC 驱 动 访问 Cobar 集 群 ，Cobar 服 务 器 根据 
SQL 和 分 库 规则 分 解 SQL， 分 发 到 MySQL 集 群 不 同 的 数据 库 实例 上 执 
行 (每 个 MySQL 实 例 都 部 署 为 主 / 从 结构 ， 保 证 数据 高 可 用 ) 。 


Cobar 系 统 组 件 模 型 如 图 6.16 所 示 。 
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图 6.16 ”Cobar 系 统 组 件 模 型 


前 端 通信 模块 负责 和 应 用 程序 通信 ， 接 收 到 SQL 请 求 (select * 
from users where userid in (12,22,23) ) 后 转交 给 SQL 解析 模块 ，SQL 
解析 模块 解析 获得 SQL 中 的 路 由 规则 查询 条 件 (userid in 

(12,22,23) ) 再 转交 给 SQL 路 由 模块 ，SQL 路 由 模块 根据 路 由 规则 配 
置 《userid 为 偶数 路 由 至 数据 库 A，userid 为 奇数 路 由 至 数据 库 B) 将 应 
用 程序 提交 的 SQL 分 解 成 两 条 SQL (select * from users where userid in 

(12,22) ; select * from users where userid in (23) ; ) 转交 给 SQL 执 
行 代理 模块 ， 发 送 至 数据 库 A 和 数据 库 B 分 别 执行 。 


数据 库 A 和 数据 库 B 的 执行 结果 返回 至 SQL 执行 模块 ， 通 过 结果 合 
并 模块 将 两 个 返回 结果 集合 并 成 一 个 结果 集 ， 最 终 返回 给 应 用 程序 ， 
完成 在 分 布 式 数据 库 中 的 一 次 访问 请 求 。 


那么 Cobar 如 何 做 集群 的 伸缩 呢 ? 


Cobar 的 伸缩 有 两 种 : Cobar 服 务 器 集群 的 伸缩 和 MySQL 服 务 器 集 
群 的 伸缩 。 


Cobar 服 务 器 可 以 看 作 是 无 状态 的 应 用 服务 器 ， 因 此 其 集群 伸缩 可 
以 简单 使 用 负载 均衡 的 手段 实现 。 而 MySQL 中 存储 着 数据 ， 要 想 保证 
集群 扩容 后 数据 一 致 负载 均衡 ， 必 须要 做 数据 迁移 ， 将 集群 中 原来 机 
器 中 的 数据 迁移 到 新 添加 的 机 器 中 ， 如 图 6.17 所 示 。 
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图 6.17 “Cobar 集 群 伸缩 原理 


具体 迁移 哪些 数据 可 以 利用 一 致 性 Hash 算 法 〈 即 路 由 模块 使 用 一 
致 性 Hash 算 法 进行 路 由 ) ， 尽 量 使 需要 迁移 的 数据 最 少 。 但 是 迁移 数 
据 需要 遍历 数据 库 中 每 条 记录 (的 索引 ) ， 重 新 进行 路 由 计算 确定 其 
是 否 需 要 迁移 ， 这 会 对 数据 库 访 问 造成 一 定 压力 。 并 且 需 要 解决 迁移 
过 程 中 数据 的 一 致 性 、 可 访问 性 、 迁 移 过 程 中 服务 器 宕 机 时 的 可 用 性 
等 诸多 问题 。 


实践 中 ，Cobar 利 用 了 MySQL 的 数据 同步 功能 进行 数据 迁移 。 数 
据 迁 移 不 是 以 数据 为 单位 ， 而 是 以 Schema 为 单位 。 在 Cobar 集 群 初始 
化 时 ， 在 每 个 MySQL 实 例 创建 多 个 Schema (根据 业务 远景 规划 未 来 集 
群 规模 ， 如 集群 最 大 规模 为 1000 台 数据 库 服 务 器 ， 那 么 总 的 初始 
Schema 数 >1000) 。 集 群 扩容 的 时 候 ， 从 每 个 服务 器 中 迁移 部 分 
Schema 到 新 机 器 中 ， 由 于 迁移 以 Schema 为 单位 ， 迁 移 过 程 可 以 使 用 
MySQL 的 同步 机 制 ， 如 图 6.18 所 示 。 
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图 6.18 利用 MySQL 同 步 机制 实 现 Cobar 集 群 伸缩 


新 MySQL 


同步 完成 时 ， 即 新 机 器 中 Schema 数据 和 原 机 器 中 Schema 数据 一 致 
的 时 候 ， 修 改 Cobar 服 务 器 的 路 由 配置 ， 将 这 些 Schema 的 IP 修 改 为 新 机 
器 的 IP， 然 后 删除 原 机 器 中 的 相关 Schema， 完 成 MySQL 集 群 扩 容 。 


在 整个 分 布 式 关 系数 据 库 的 访问 请 求 过 程 中 ，Cobar 服 务 器 处 理 消 
耗 的 时 间 是 很 少 的 ， 时 间 花 费 主要 还 是 在 MySQL 数 据 库 端 ， 因 此 应 用 
程序 通过 Cobar 访 问 分 布 式 关系 数据 库 ， 性 能 基本 和 直接 访问 关系 数据 
库 相 当 ， 可 以 满足 网 站 在 线 业 务 的 实时 处 理 需求 。 事 实 上 由 于 Cobar 代 
人 替 应 用 程序 连接 数据 库 ， 数 据 库 只 需要 维护 更 少 的 连接 ， 减 少 不 必 要 
的 资产 消耗 ， 改 善 性 能 。 


但 由 于 Cobar 路 由 后 只 能 在 单一 数据 库 实例 上 处 理 查 询 请 求 ， 因 此 
无 法 执行 跨 库 的 JOIN 操 作 ， 当 然 更 不 能 执行 跨 库 的 事务 处 理 。 


相 比 关系 数据 库 本 身 功 能 上 的 优雅 强大 ， 目 前 各 类 分 布 式 关系 数 
据 库 解决 方案 都 显得 非常 简陋 ， 限 制 了 关系 数据 库 某 些 功能 的 使 用 。 
但 是 当 网 站 业务 面临 不 停 增 长 的 海量 业务 效 据 存储 压力 时 ， 又 不 得 不 
利用 分 布 式 关系 数据 库 的 集群 伸缩 能 力 ， 这 时 就 必须 从 业务 上 回避 分 
布 式 关系 数据 库 的 各 种 缺点 : 避免 事务 或 利用 事务 补偿 机 制 代替 数据 
库 事 务 ;， 分 解数 据 访问 逻辑 避免 JOIN 操 作 等 。 


除了 上 面 提 到 的 分 布 式 数据 库 ， 还 有 一 类 分 布 式 数据 库 可 以 支持 
JOIN 操作 执行 复杂 的 SQL 查询 ， 如 GreenPlum。 但 是 这 类 数据 库 的 访 
问 延迟 比较 大 〈 可 以 想象 ，JOIN 操 作 需 要 在 服务 器 间 传 输 大 量 的 数 
据 ) ， 因 此 一 般 使 用 在 数据 仓库 等 非 实 时 业务 中 。 


6.4.2 ”NoSQL 数 据 库 的 伸缩 性 设计 


在 计算 机 数据 存储 领域 ， 一 直 是 关系 数据 库 (Relation Database) 
的 天 下 ， 以 至 传统 企业 应 用 领域 ， 许 多 应 用 系统 设计 都 是 面向 数据 库 
设计 一 一 先 设 计数 据 库 然 后 设计 程序 ， 从 而 导致 关系 模型 绑架 对 象 模 
型 ， 并 由 此 5 引申 出 旷日持久 的 业务 对 象 贫血 模型 与 充血 模型 之 争 。 业 
界 为 了 解决 关系 数据 库 的 不 足 ， 提 出 了 诸多 方案 ， 比 较 有 名 的 是 对 象 
数据 库 ， 但 是 这 些 数 据 库 的 出 现 只 是 进一步 证 明 关 系数 据 库 的 优越 而 
已 。 直 到 大 型 网 站 遇 到 了 关系 数据 库 难以 克服 的 缺陷 一 一 糟 料 的 海量 
效 据 处 理 能 力 及 僵硬 的 设计 约束 ， 局 面 才 有 所 改善 。 为 了 解决 上 述 问 
题 ，NoSQL 这 一 概念 被 提 了 出 来 ， 以 弥补 关系 数据 库 的 不 足 。 


NoSQL， 主 要 指 非 关系 的 、 分 布 式 的 数据 库 设 计 模式 。 也 有 许多 
专家 将 NoSQL 解 读 为 Not Only SQL， 表 示 NoSQL 只 是 关系 数据 库 的 补 
充 ， 而 不 是 替代 方案 。 一 般 而 言 ，NoSQL 数 据 库 产品 都 放弃 了 关系 数 
据 库 的 两 大 重要 基础 : 以 关系 代数 为 基础 的 结构 化 查询 语言 (SQL) 
和 事务 一 致 性 保证 (ACID) 。 而 强化 其 他 一 些 大 型 网 站 更 关注 的 特 
性 : 高 可 用 性 和 可 伸缩 性 。 


开源 社区 有 各 种 NoSQL 产 品 ， 其 支持 的 数据 结构 和 伸缩 特性 也 各 
不 相同 ， 目 前 看 来 ， 应 用 最 广泛 的 是 Apache HBase。 


HBase 为 可 伸缩 海量 数据 储存 而 设计 ， 实 现 面向 在 线 业 务 的 实时 
数据 访问 延迟 。HBase 的 伸缩 性 主要 依赖 其 可 分 裂 的 HRegion 及 可 伸缩 
的 分 布 式 文件 系统 HDFS 实 现 。 


HBase 的 整体 架构 如 图 6.19 所 示 。HBase 中 ， 数 据 以 HRegion 为 单 
位 进行 管理 ， 也 就 是 说 应 用 程序 如 果 想 要 访问 一 个 数据 ， 必 须 先 找到 
HRegion， 然 后 将 数据 读 写 操作 提交 给 HRegion， 由 HRegion 完 成 存储 
层面 的 数据 操作 。 每 个 HRegion 中 存储 一 段 Key 值 区 间 [key1,key2) 的 


数据 ，HRegionServer 是 物理 服务 器 ， 每 个 HRegionServer 上 可 以 启动 多 
个 HRegion 实 例 。 当 一 个 HRegion 中 写 入 的 数据 太 多 ， 达 到 配置 的 阅 值 
时 ，HRegion 会 分 裂 成 两 个 HRegion， 并 将 HRegion 在 整个 集群 中 进行 
迁移 ， 以 使 HregionServer 的 负载 均衡 。 


HRegionSemver HRegionServer 
HRegion HRegion HRegion HRegion 
HFile HFile HFile | HFile HFile | HFile | HFile | HFile 


图 6.19 ”HBase 架 构 


所 有 HRegion 的 信息 (存储 的 Key 值 区 间 、 所 在 HRegionServer 地 
址 、 访 问 端 口号 等 ) 都 记录 在 HMaser 服 务 器 上 ， 为 了 保证 高 可 用 ， 
HBase 启 动 多 个 HMaser， 并 通过 Zookeeper (一 个 支持 分 布 式 一 致 性 的 
数据 管理 服务 ) 选举 出 一 个 主 服务 器 ， 应 用 程序 通过 Zookeeper 获 得 主 
HMaser 的 地 址 ， 输 入 Key 值 获得 这 个 Key 所 在 的 HRegionServer 地 址 ， 
然后 请 求 HRegionServer 上 的 HRegion， 获 得 需要 的 数据 。 调 用 时 序 如 
图 6.20 所 示 。 


一 一 请 求 HMaster 地 址 : 


| HMaster 
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图 6.20 ”HBase 数 据 寻 址 过 程 时 序 图 


数据 写 入 过 程 也 是 一 样 ， 需 要 先 得 到 HRegion 才 能 继续 操作 ， 
HRegion 会 把 数据 存储 在 若干 个 叫 作 HFile 格 式 的 文件 中 ， 这 些 文件 使 
用 HDFS 分 布 式 文件 系统 (参考 本 书 第 4 章 ) 存储 ， 在 整个 集群 内 分 布 
并 高 可 用 。 当 一 个 HRegion 中 数据 量 太 多 时 ，HRegion (连同 HFile) 会 
分 裂 成 两 个 HRegion， 并 根据 集群 中 服务 器 负载 进行 迁移 ， 如 果 集 群 
中 有 新 加 入 的 服务 器 ， 也 就 是 说 有 了 新 的 HRegionServer， 由 于 其 负载 
较 低 ， 也 会 把 HRegion 迁 移 过 去 并 记录 到 HMaster， 从 而 实现 HBase 的 
线性 伸缩 。 


6.5 “小 结 
伸缩 性 架构 设计 能 力 是 网 站 架构 师 必须 具备 的 能 力 。 


伸缩 性 架构 设计 是 简单 的 ， 因 为 几乎 所 有 稍 有 规模 的 网 站 都 必须 
是 可 伸缩 的 ， 有 很 多 案例 可 供 借鉴 ， 同 时 又 有 大 量 丙 业 的 、 开 产 的 提 
供 伸缩 性 能 力 的 软 硬 件 产品 可 供 选用 。 然 而 伸缩 性 设计 又 是 复杂 的 ， 
没有 通用 的 、 完 美的 解决 方案 和 产品 ， 网 站 伸缩 性 往往 和 可 用 性 、 正 
确 性 、 性 能 等 耦合 在 一 起 ， 改 善 伸缩 性 可 能 会 影响 一 些 网 站 的 其 他 特 
性 ， 网 站 架构 师 必须 对 网 站 的 商业 目标 、 历 史 演 化 、 技 术 路 线 了 然 于 
胸 ， 甚 至 还 需要 综合 考虑 技术 团队 的 知识 储备 和 结构 、 管 理 层 的 战略 
愿景 和 规划 ， 才 能 最 终 做 出 对 网 站 伸缩 性 架构 最 合适 的 决策 。 


一 个 具有 民 好 伸缩 性 架构 设计 的 网 站 ， 其 设计 总 是 走 在 业务 发 展 
的 前 面 ， 在 业务 需要 处 理 更 多 访问 和 服务 之 前 ， 就 已 经 做 好 充足 准 
备 ， 当 业务 需要 时 ， 只 需要 购买 或 者 租用 服务 器 简单 部 署 实 施 就 可 以 
了 ， 技 术 团队 亦 可 高 枕 无 忧 。 反 之 ， 设 计 和 技术 走 在 业务 的 后 面 ， 采 
购 来 的 机 器 根本 就 没 办 法 加 入 集群 ， 勉 强加 了 进去 ， 却 发 现 瓶 颈 不 在 
这 里 ， 系 统 整 体 处 理 能 力 依然 上 不 去 。 技 术 团 队 每 天 加 班 ， 却 总 是 拖 
公司 发 展 的 后 腿 。 架 构 师 对 网 站 伸缩 性 的 把 握 ， 一 线 之 间 ， 天 堂 和 地 
狱 。 


高 手 定 律 : 这 个 世界 只 有 遇 不 到 的 问题 ， 没 有 解决 不 了 
的 问题 ， 高 手 之 所 以 成 为 高 手 ， 是 因为 他 们 遇 到 了 单 人 很 难 
遇 到 的 问题 ， 并 解决 了 。 所 以 百度 有 很 多 广告 搜索 的 高 手 ， 
淘宝 有 很 多 海量 数据 的 高 手 ，QQ 有 很 多 高 并 发 业务 的 高 


手 ， 原 因 大 抵 如 此 。 一 个 100 万 用 户 的 网 站 ， 不 会 遇 到 1 亿 用 
户 同 时 在 线 的 问题 ; 一 个 拥有 100 万 件 丙 品 网 站 的 工程 师 ， 
E 无 法 理解 一 个 拥有 10 亿 件 商 品 网 站 的 架构 。 


救世 主 定律 : 遇 到 问题 ,分析 问 题 ， 最 后 总 能 解决 问 
题 。 如 果 遇 到 问题 就 急匆匆 地 从 外 面 挖 一 个 高 手 ， 然 后 指望 
高 手 如 探 吉 取 物 般 轻 松 搞定 ， 最 后 怕 是 只 有 彼此 抱怨 和 伤 
害 。 许 多 问题 只 是 看 起 来 一 样 ， 具 体 问 题 总 是 要 具体 对 待 
的 ， 没 有 银 弹 ， 没 有 救世 主 。 所 以 这 个 定律 准确 地 说 应 该 是 
“没有 救世 主 定律 ”。 


7 ” 随 需 应 变 : 网 站 的 可 扩展 染 构 


国内 某 大 型 互联 网 企业 经 常 因为 对 同行 的 产品 进行 微 创新 ， 然 后 
推出 自己 的 产品 而 遭 人 诉 病 ， 不 讨论 这 种 做 法 是 否 合适 ， 我 们 分 析 这 
些 产 品 ， 发 现 大 多 数 都 比 原创 产品 有 更 好 的 用 户 体验 。 这 些 产品 常常 
后 来 居 上 ， 更 速度 地 推出 新 功能 ， 吸 引用 户 注 意 ， 进 而 占据 市 场 。 


微 信 从 发 布 到 拥有 1 亿 用 尸 ， 仪 仅 用 了 一 年 的 时 间 。 而 据说 摇 一 手 
这 个 功能 是 两 个 实习 生 用 一 个 星期 就 开发 完成 上 线 的 。 


使 用 TOP (Taobao Open API) ， 一 个 技术 熟练 的 淘宝 客 网 站 开发 
工程 师 只 需要 用 几 个 晚上 的 业余 时 间 就 可 以 开发 部 署 一 个 炫目 的 购物 
导购 网 站 。 


如 此 轻易 地 就 可 以 开发 一 个 新 产品 ， 如 此 快速 地 就 可 以 实现 一 个 
新 功能 ， 他 们 是 如 何 做 到 的 ? 


为 什么 有 的 网 站 必须 规定 系统 发 布 日 ， 一 到 发 布 日 就 如 临 大 政 ， 
整个 技术 部 加 班 通宵 达旦 ， 而 有 的 网 站 丈 可 以 随时 发 布 ， 新 功能 可 以 
随时 快速 上 线 。 


这 些 都 有 赖 于 网 站 的 扩展 性 架构 设计 ， 就 是 在 对 现 有 系统 影响 最 
小 的 情况 下 ， 系 统 功能 可 持续 扩展 及 提升 的 能 力 。 


经 常 听 到 各 种 场合 中 对 扩展 性 和 伸缩 性 的 误 用 ， 包 括 许多 资深 网 
站 染 构 师 也 瘦 党 竟 痛 两 者 ， 用 扩展 性 表示 伸缩 性 。 在 此 ， 我 们 澄清 下 
这 两 个 概念 。 


扩展 性 (Extensibility) 


指 对 现 有 系统 影响 最 小 的 情况 下 ， 系 统 功能 可 持续 扩展 或 提升 的 
能 力 。 表 现在 系统 基础 设施 稳定 不 需要 经 常 变更 ， 应 用 之 间 较 少 依赖 
和 耦合 ， 对 需求 变更 可 以 敏捷 响应 。 它 是 系统 架构 设计 层面 的 开 闭 原 
则 (对 扩展 开放 ， 对 修改 关闭 ) ， 架 构 设 计 考 虑 未 来 功能 扩展 ， 当 系 
统 增 加 新 功能 时 ， 不 需要 对 现 有 系统 的 结构 和 代码 进行 修改 。 


伸缩 性 〈Scalability) 


指 系统 能 够 通过 增加 (减少 ) 自身 资源 规模 的 方式 增强 (减少 ) 
自己 计算 处 理事 务 的 能 力 。 如 果 这 种 增 减 是 成 比例 的 ， 就 被 称 作 线 性 
伸缩 性 。 在 网 站 染 构 中 ， 通 常 指 利用 集群 的 方式 增加 服务 器 数量 、 提 
高 系统 的 整体 事务 吞吐 能 力 。 


7.1 构建 可 扩展 的 网 站 架构 


开发 低 耦 合 系统 是 软件 设计 的 终极 目标 之 一 ， 这 一 目标 驱动 着 软 
件 开发 技术 的 创新 与 发 展 ， 从 软件 与 硬件 的 第 一 次 分 离 到 操作 系统 的 
诞生 ;从 汇编 语言 到 面向 过 程 的 开发 语言 ， 表 到 面向 对 象 的 编程 语 
言 ; 从 各 种 软件 工具 集 到 各 种 开发 框架 ; 无 不 体现 着 降低 软件 系统 耦 
合 性 这 一 终极 目标 。 可 以 说 ， 度 量 一 个 开发 框架 、 设 计 模 式 、 编 程 语 
言 优 和 劣 的 重要 尺度 就 是 衡量 它 是 不 是 让 软件 开发 过 程 和 软件 产品 更 加 
低 耦 合 。 


显而易见 ， 低 耦合 的 系统 更 容易 扩展 ， 低 耦合 的 模块 更 容易 复 
用 ， 一 个 低 耦 合 的 系统 设计 也 会 让 开发 过 程 和 维护 变 得 更 加 轻松 和 容 
易 管 理 。 一 个 复杂 度 为 100 的 系统 ， 如 果 能 够 分 解 成 没有 耦合 的 两 个 子 
系统 ， 那 么 每 个 子 系统 的 复杂 度 不 是 50， 而 可 能 是 25。 当 然 ， 完 全 没 
有 耦合 融 是 没有 天 系 ， 也 融 无 法 组 合 出 一 个 强大 的 系统 。 那 么 如 何 分 
解 系统 的 各 个 模块 、 如 何 定义 各 个 模块 的 接口 、 如 何 复 用 组 合 不 同 的 
模块 构造 成 一 个 完整 的 系统 ， 这 是 软件 设计 中 最 有 挑战 的 部 分 。 


笔者 认为 ， 软 件 架 构 师 最 大 的 价值 不 在 于 掌握 多 少 先 进 的 技术 ， 
而 在 于 具有 将 一 个 大 系统 切 分 成 N 个 低 耦 合 的 子 模块 的 能 力 ， 这 些 子 
模块 包含 横向 的 业务 模块 ， 也 包含 纵向 的 基础 技术 模块 。 这 种 能 力 一 
部 分 源 自 专业 的 技术 和 经 验 ， 还 有 一 部 分 源 自 架构 师 对 业务 场景 的 理 
解 、 对 人 性 的 把 握 、 甚 至 对 世界 的 认 知 。 


大 型 网 站 也 常常 意味 着 功能 复杂 ， 产 品 众 多 。 网 站 为 了 在 市 场 竞 
争 中 胜出 ， 不 断 推出 各 种 新 产品 ， 为 了 把 握 市 场 机 会 ， 这 些 产品 从 策 
划 到 上 线 ， 时 间 非 市 短暂 ， 技 术 团 队 必 须 在 产品 设计 和 需求 分 析 结 束 


之 后 ， 快 速 地 开发 完成 一 个 新 产品 。 同 时 经 过 长 期 的 演化 和 发 展 ， 这 
些 产 品 之 间 的 关系 错综复杂 ， 维 护 也 变 得 异常 困难 。 这 些 问题 对 网 站 
的 可 扩展 染 构 提出 了 挑战 和 要 求 。 


设计 网 站 可 扩展 架构 的 核心 思想 是 模块 化 ， 并 在 此 基础 之 上 ， 降 
低 模块 间 的 耦合 性 ， 提 高 模块 的 复 用 性 。 


我 们 在 本 书 第 6 章 讨论 过 网 站 通过 分 层 和 分 割 的 方式 进行 架构 伸 
缩 ， 分 层 和 分 割 也 是 模块 化 设计 的 重要 手段 ， 利 用 分 层 和 分 割 的 方式 
将 软件 分 割 为 若干 个 低 耦 合 的 独立 的 组 件 模块 ， 这 些 组 件 模块 以 消息 
传递 及 依赖 调用 的 方式 聚合 成 一 个 完整 的 系统 。 


在 大 型 网 站 中 ， 这 些 模块 通过 分 布 式 部 署 的 方式 ， 独 立 的 模块 部 
署 在 独立 的 服务 器 《集群 ) 上 ， 从 物理 上 分 离 模块 之 间 的 耦合 关系 ， 
进一步 降低 耦合 性 提高 复 用 性 。 


模块 分 布 式 部 署 以 后 具体 聚合 方式 主要 有 分 布 式 消息 队列 和 分 布 
式 服务 。 


7.2 ”利用 分 布 式 消息 队列 降低 系统 耦合 性 


如 果 模 块 之 间 不 存在 直接 调用 ， 那 么 新 增 模块 或 者 修改 模块 就 对 
其 他 模块 影响 最 小 ， 这 样 系统 的 可 扩展 性 无 疑 更 好 一 些 。 


7.2.1 事件 驱动 架构 


事件 驱动 架构 (Event Driven Architecture) : 通过 在 低 耦 合 的 模 
块 之 间 传 输 事件 消息 ， 以 保持 模块 的 松散 耦合 ， 并 借助 事件 消息 的 通 
信 完 成 模块 间 合 作 ， 典 型 的 EDA 架 构 就 是 操作 系统 中 常见 的 生产 者 消 
费 者 模式 。 在 大 型 网 站 架构 中 ， 具 体 实现 手段 有 很 多 ， 最 常用 的 是 分 
布 式 消息 队列 ， 如 图 7.1 所 示 。 


应 用 程序 日 
消息 接收 者 ) 
应 用 程序 C 
【消息 接收 者 ) 
应 用 程序 D 
消息 接收 者 ) 


图 7.1 利用 消息 队列 实现 的 事件 驱动 架构 


应 用 程序 A 
(消息 发 送 者 ) 


分 布 式 消息 队列 


消息 队列 利用 发 布 一 订阅 模式 工作 ， 消 息 发 送 者 发 布 消息 ， 一 个 
或 者 多 个 消息 接收 者 订阅 消息 。 消 息 发 送 者 是 消息 源 ， 在 对 消息 进行 
处 理 后 将 消息 发 送 至 分 布 式 消息 队列 ， 消 息 接受 者 从 分 布 式 消息 队列 
获取 该 消息 后 继续 进行 处 理 。 可 以 看 到 ， 消 息 发 送 者 和 消息 接受 者 之 
间 没 有 直接 耦合 ， 消 息 发 送 者 将 消息 发 送 至 分 布 式 消息 队列 即 结束 对 
消息 的 处 理 ， 而 消息 接受 者 只 需要 从 分 布 式 消息 队列 获取 消息 后 进行 
处 理 ， 不 需要 知道 该 消息 从 何 而 来 。 对 新 增 业 务 ， 只 要 对 该 类 消息 感 


兴趣 ， 即 可 订阅 该 消息 ， 对 原 有 系统 和 业务 没有 任何 影响 ， 从 而 实现 
网 站 业务 的 可 扩展 设计 。 


消息 接受 者 在 对 消息 进行 过 滤 、 处 理 、 包 装 后 ， 构 造成 一 个 新 的 
消息 类 型 ， 将 消息 继续 发 送出 去 ， 等 待 其 他 消息 接受 者 订阅 处 理 该 消 
息 。 因 此 基于 事件 〈 消 息 对 象 ) 驱动 的 业务 架构 可 以 是 一 系列 的 流 


程 。 


由 于 消息 发 送 者 不 需要 等 待 消息 接受 者 处 理 数据 就 可 以 返回 ， 系 
统 具 有 更 好 的 响应 延迟 ; 同时， 在 网 站 访问 高 峰 ， 消 息 可 以 暂时 存储 
在 消息 队列 中 等 待 消息 接受 者 根据 自身 负载 处 理 能 力 控制 消息 处 理 速 
度 ， 减 轻 数 据 库 等 后 端 存 储 的 负载 压力 。 


7.2.2 ”分 布 式 消息 队列 


队列 是 一 种 先进 先 出 的 数据 结构 ， 分 布 式 消息 队列 可 以 看 作 将 这 
种 数据 结构 部 署 到 独立 的 服务 器 上 ， 应 用 程序 可 以 通过 远程 访问 接口 
使 用 分 布 式 消息 队列 ， 进 行 消息 存 取 操作 ， 进 而 实现 分 布 式 的 异步 调 
用 ， 基 本 原理 如 图 7.2 所 示 。 


消息 队列 服务 器 
应 用 程序 服务 器 A 应 用 程序 服务 器 日 


消息 订阅 列表 消息 推送 模块 站 


we {IT 


写 入 消息 队列 服务 器 内 存 


应 用 程序 B 
《消息 消费 者 


应 用 程序 A 
《消息 生产 者 ) 


图 7.2 分布 式 消息 队列 架构 原理 


消息 生产 者 应 用 程序 通过 远程 访问 接口 将 消息 推送 给 消息 队列 服 
务 器 ， 消 息 队 列 服务 器 将 消息 写 入 本 地 内 存 队 列 后 立即 返回 成 功 响 应 


给 消息 生产 者 。 消 息 队 列 服务 器 根据 消息 订阅 列表 查找 订阅 该 消息 的 
消息 消费 者 应 用 程序 ， 将 消息 队列 中 的 消息 按照 先进 先 出 (FIFO) 的 
原则 将 消息 通过 远程 通信 接口 发 送 给 消息 消费 者 程序 。 


目前 开源 的 和 商业 的 分 布 式 消息 队列 产品 有 很 多 ， 比 较 著名 的 如 
Apache ActiveMQ 等 ， 这 些 产品 除了 实现 分 布 式 消息 队列 的 一 般 功 
能 ， 在 可 用 性 、 伸 缩 性 、 数 据 一 致 性 、 性 能 和 可 管理 性 方面 也 做 了 很 


多 改善 。 


在 伸缩 性 方面 ， 由 于 消息 队列 服务 器 上 的 数据 可 以 看 作 是 被 即时 
处 理 的 ， 因 此 类 似 于 无 状态 的 服务 器 ， 伸 缩 性 设计 比较 简单 。 将 新 服 
务 器 加 入 分 布 式 消息 队列 集群 中 ， 通 知 生产 者 服务 器 更 改 消息 队列 服 
务 器 列表 即 可 。 


在 可 用 性 方面 ， 为 了 避免 消费 者 进程 处 理 缓慢 ， 分 布 式 消息 队列 
服务 器 内 存 空 间 不 足 造 成 的 问题 ， 如 果 内 存 队 列 已 满 ， 会 将 消息 写 入 
磁盘 ， 消 息 推送 模块 在 将 内 存 队列 消息 处 理 完 以 后 ， 将 磁盘 内 容 加 载 
到 内 存 队列 继续 处 理 。 


为 了 避免 消息 队列 服务 器 宕 机 造成 消息 丢失 ， 会 将 消息 成 功 发 送 
到 消息 队列 的 消息 存储 在 消息 生产 者 服务 器 ， 等 消息 真正 被 消息 消费 
者 服务 器 处 理 后 才 删 除 消息 。 在 消息 队列 服务 器 宕 机 后 ， 生 产 者 服务 
器 会 选择 分 布 式 消息 队列 服务 器 集群 中 其 他 的 服务 器 发 布 消息 。 


分 布 式 消息 队列 可 以 很 复杂 ， 比 如 可 以 支持 ESB (企业 服务 总 
线 ) 、 支 持 SOA (面向 服务 的 架构 ) 等 ， 也 可 以 很 简单 ， 比 如 用 
MySQL 也 可 以 当 作 分 布 式 消息 队列 ; 消息 生产 者 程序 将 消息 当 作 数 据 
记录 写 入 数据 库 ， 消 息 消费 者 程序 查询 数据 库 并 按 记录 写 入 时 间 戳 排 


序 ， 就 实现 了 一 个 事实 上 的 分 布 式 消息 队列 ， 而 且 这 个 消息 队列 使 用 
成 熟 的 MySQL 运 维 手 段 ， 也 可 以 达到 较 高 的 可 用 性 和 性 能 指标 。 


7.3 ”利用 分 布 式 服务 打造 可 复 用 的 业务 平台 


使 用 分 布 式 服务 是 降低 系统 耦合 性 的 另 一 个 重要 手段 。 如 果 说 分 
布 式 消 息 队 列 通过 消息 对 象 分 解 系统 耦合 性 ， 不 同 子 系统 处 理 同 一 个 
消息 ; 那么 分 布 式 服务 则 通过 接口 分 解 系 统 耦 合 性 ， 不 同 子 系统 通过 
相同 的 接口 描述 进行 服务 调用 。 


回顾 网 站 染 构 发 展 历程 ， 网 站 在 由 小 到 大 的 演化 过 程 中 ， 表 现 为 
整个 网 站 是 由 单一 应 用 系统 逐步 膨胀 发 展 变化 而 来 ， 随 着 网 站 功能 的 
日 益 复 杂 ， 网 站 应 用 系统 会 逐渐 成 为 一 个 巨 无 霸 ， 如 图 7.3 所 示 。 一 个 
应 用 中 聚合 了 大 量 的 应 用 和 服务 组 件 ， 这 个 巨 无 霸 给 整个 网 站 的 开 
发 、 维 护 、 部 署 都 融 来 了 巨大 的 麻烦 。 
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图 7.3 巨 无 霸 系 统 示意 图 


巨 无 霸 应 用 系统 带 来 如 下 几 点 问题 。 


1. 编译 、 部 署 困难 : 对 于 网 站 开发 工程 师 而 言 ， 打 包 构 建 一 个 巨 
型 应 用 是 一 件 痛苦 的 事情 ， 也 许 只 是 修改 了 一 行 代 码 ， 输 入 build 命 令 


看 ， 还 在 building; 又 去 了 一 次 而 所， 回来 一 看 ， 还 在 building; 好 不 
容易 build 结 束 ， 一 看 编译 失败 ， 还 得 重 来 .……. 


2. 代码 分 支管 理 困 难 : 复 用 的 代码 模块 由 多 个 团队 共同 维护 修 
改 ， 代 码 merge 的 时 候 总 会 发 生 冲 突 。 代 码 merge 一 般 发 生 在 网 站 发 布 
的 时 候 ， 经 常 和 发 布 过 程 中 出 现 的 其 他 问题 互相 纠结 在 一 起 ， 顾 此 失 
彼 ， 导 致 每 次 发 布 都 要 拖 到 半夜 三 更 。 


3. 数据 库 连接 耗 尽 : 巨型 的 上 应用、 大量 的 访问 ， 必 然 需要 将 这 个 
应 用 部 署 在 一 个 大 规模 的 服务 器 集群 上 ， 应 用 与 数据 库 的 连接 通常 使 
用 数据 库 连 接地 ， 以 每 个 应 用 10 个 连接 计 ， 一 个 数 百 人 台 服 务 器 集群 的 
应 用 将 需要 在 数据 库 上 创建 数 干 个 连接 。 数 据 库 服务 器 上 ， 每 个 连接 
都 会 占用 一 些 昂贵 的 系统 资产 ， 以 至 于 效 据 库 缺 之 足够 的 系统 资产 进 
行 一 般 的 数据 操作 。 


4. 新 增 业 务 困难 : 想 要 在 一 个 已 经 如 乱 麻 般 的 系统 中 增加 新 业 
务 ， 维 护 旧 功能 ， 难 度 可 想 而 知 : 一 脚 踩 进去 ， 发 现 全 都 是 雷 ， 什 么 
都 不 敢 辜 。 许 多 新 工程 师 来 公司 半年 了 ， 还 是 不 能 接手 业务 ， 因 为 不 
知道 水 有 多 深 。 于 是 就 出 现 这 种 怪 现 象 : 熟悉 网 站 产品 的 “老人 ” 忙 得 
要 死 ， 加 班 加 点 干 活 ， 不 熟悉 网 站 产品 的 新 人 一 帮忙 就 出 乱 ， 跟 着 加 
班 加 点 ， 整 个 公司 热火 朝天 ， 加 班 加 点 ， 却 还 是 经 党 出 故障 ， 新 产品 
人 述 述 不 能 上 线 。 


解决 方案 就 是 拆 分 ， 将 模块 独立 部 署 ， 降 低 系 统 耦 合 性 。 拆 分 可 
以 分 为 纵向 拆 分 和 横向 拆 分 两 种 。 


纵向 拆 分 : 将 一 个 大 应 用 拆 分 为 多 个 小 应 用 ， 如 果 新 增 业 务 较为 
独立 ， 那 么 就 直接 将 其 设计 部 署 为 一 个 独立 的 Web 应 用 系统 。 


横向 拆 分 : 将 复 用 的 业务 拆 分 出 来 ， 独 立 部 署 为 分 布 式 服 务 ， 新 
增 业 务 只 需要 调用 这 些 分 布 式 服 务 ， 不 需要 依赖 具体 的 模块 代码 ， 即 
可 快速 搭建 一 个 应 用 系统 ， 而 模块 内 业务 逻辑 变化 的 时 候 ， 只 要 接口 
保持 一 致 就 不 会 影响 业务 程序 和 其 他 模块 。 如 图 7.4 所 示 。 


| 搜索 引擎 服务 器 
《集群 ) 


消息 队列 服务 器 
(集群 ) 


分 布 式 文件 服务 器 
(集群 ) 


分 布 式 组 存 服务 器 
(集群 ) 


数据 库 服务 器 


图 7.4 业务 及 模块 拆 分 独立 部 署 的 分 布 式 服务 架构 


纵向 拆 分 相对 较为 简单 ， 通 过 梳理 业务 ， 将 较 少 相关 的 业务 剥 
离 ， 使 其 成 为 独立 的 web 应 用 。 而 对 于 横向 拆 分 ， 不 但 需要 识别 可 复 
用 的 业务 ， 设 计 服 务 接口 ， 规 范 服务 依赖 关系 ， 还 需要 一 个 完善 的 分 
布 式 服务 管理 框 染 。 


7.3.1 ”Web Service 与 企业 级 分 布 式 服务 


Web Service 曾 经 是 企业 应 用 系统 开发 领域 最 时 暑 的 词汇 之 一 ， 用 
以 整合 异 构 系 统 及 构建 分 布 式 系统 。Web Service 原 理 架 构 如 图 7.5 所 
示 。 


Service 
Broker 


i ， UPDI 


WSDL， WSDL， 


图 7.5 WebService 架构 原理 


(图 片 来 源 : http:/zh.wikipedia.org/zh/Web%E69%9C%8D9%E5%8Ao%A1) 


服务 提供 者 通过 WSDL (Web Services Description Language，Web 
服务 描述 语言 ) 向 注册 中 心 (Service Broker) 描述 自身 提供 的 服务 接 
口 属性 ， 注 册 中 心 使 用 UDDI (Universal Description, Discovery, and 
Integration， 统 一 描述 、 发 现 和 和 集成) 发 布 服务 提供 者 提供 的 服务 ， 服 
务 请 求 者 从 注册 中 心 检索 到 服务 信息 后 ， 通 过 SOAP (Simple Object 
Access Protocol， 简 单 对 象 访问 协议 ) 和 服务 提供 者 通信 ， 使 用 相关 
服务 。 


Web Service 里 然 有 成 熟 的 技术 规范 和 产品 实现 ， 并 在 企业 应 用 领 
域 有 许多 成 功 的 案例 ， 但 也 有 如 下 固有 的 缺点 。 


1. 腔 肿 的 注册 与 发 现 机 制 |。 
2. 低 效 的 XML 序列 化 手段 。 


3. 开销 相对 较 高 的 HTTP 远 程 通 信 。 


4. 复杂 的 部 署 与 维护 手段 。 


这 些 问题 导致 Web Service 难 以 满足 大 型 网 站 对 系统 高 性 能 、 高 可 
用 、 易 部 署 、 易 维护 的 要 求 。 


7.3.2 ”大 型 网 站 分 布 式 服务 的 需求 与 特点 


对 于 大 型 网 站 ， 除 了 Web Service 所 提供 的 服务 注册 与 发 现 ， 服 务 
调用 等 标准 功能 ， 还 需要 分 布 式 服务 框 染 能 够 支持 如 下 特性 。 


负载 均衡 


对 热门 服务 ， 比 如 登录 服务 或 者 商品 服务 ， 访 问 量 非常 大 ， 服 务 
需要 部 署 在 一 个 集群 上 。 分 布 式 服务 框架 要 能 够 支持 服务 请 求 者 使 用 
可 配置 的 负载 均衡 算法 访问 服务 ， 使 服务 提供 者 集群 实现 负载 均衡 。 


失效 转移 


可 复 用 的 服务 通常 会 被 多 个 应 用 调用 ， 一 旦 该 服务 不 可 用 ， 就 会 
影响 到 很 多 应 用 的 可 用 性 。 因 此 对 于 大 型 网 站 的 分 布 式 服务 而 言 ， 即 
使 是 很 少 访问 的 简单 服务 ， 也 需要 集群 部 署 ， 分 布 式 服务 框架 支持 服 
务 提 供 者 的 失效 转移 机 制 ， 当 某 个 服务 实例 不 可 用 ， 就 将 访问 切换 到 
其 他 服务 实例 上 ， 以 实现 服务 整体 高 可 用 。 


高 效 的 远程 通信 


对 于 大 型 网 站 ， 核 心服 务 每 天 的 调用 次 数 会 达到 数 以 亿 计 ， 如 果 
没有 高 效 的 远程 通信 手段 ， 服 务 调用 会 成 为 整个 系统 性 能 的 瓶颈 。 


整合 异 构 系统 


由 于 历史 发 展 和 组 织 分 割 ， 网 站 服务 可 能 会 使 用 不 同 的 语言 开发 
并 部 署 于 不 同 的 平台 ， 分 布 式 服务 框架 需要 整合 这 些 异 构 的 系统 。 


对 应 用 最 少 侵入 


网 站 技术 是 为 业务 服务 的 ， 是 否 使 用 分 布 式 服务 需要 根据 业务 发 
展 规划 ， 分 布 式 服务 也 需要 渐进 式 的 壮 化 ， 甚 至 会 出 现 芭 复 ， 即 使 用 
了 分 布 式 服务 后 又 退回 到 集中 式 部 署 ， 分 布 式 服务 框架 需要 支持 这 种 
渐进 式 六 化 和 反复 。 当 然 服 务 模块 本 身 需 要 支持 可 集中 式 部 署 ， 也 可 
分 布 式 部 署 。 


版 本 管理 


为 了 应 对 快速 变化 的 需求 ， 服 务 升级 不 可 避免 ， 如 果 仅 仅 是 服务 
内 部 实现 逻辑 升级 ， 那 么 这 种 升级 对 服务 请 求 者 而 言 是 透明 的 ， 无 需 
关注 。 但 如 果 服 务 的 访问 接口 也 发 生 了 变化 ， 就 需要 服务 请 求 者 和 服 
务 提供 者 同时 升级 才 不 会 导致 服务 调用 失败 。 企 业 应 用 系统 可 以 申请 
停机 维护 ， 同 时 升级 接口 。 但 是 网 站 服务 不 可 能 中 断 ， 因 此 分 布 式 服 
务 框 染 需要 支持 服务 多 版 本 发 布 ， 服 务 提供 者 先 升级 接口 发 布 新 版 本 
的 服务 ， 并 同时 提供 旧版 本 的 服务 供 请 求 者 调用 ， 当 请 求 者 调用 接口 
升级 后 才 可 以 关闭 旧版 本 服务 。 


实时 监控 


对 于 网 站 应 用 而 言 ， 没 有 监控 的 服务 是 不 可 能 实现 高 可 用 的 。 分 
布 式 服务 框架 还 需要 监控 服务 提供 者 和 调用 者 的 各 项 指标 ， 提 供 运 维 
和 运营 支持 。 


7.3.3 ”分 布 式 服务 框架 设计 


大 型 网 站 需要 更 简单 更 高 效 的 分 布 式 服务 框架 构建 其 SOA 
(Service Oriented Architecture 面 向 服务 的 体系 架构 ) 。 据 称 Facebook 
利用 Thrift (一 个 开源 的 远程 服务 调用 框架 ) 管理 其 分 布 式 服 务 ， 服 务 
的 注册 、 发 现 及 调用 都 通过 Thrift 完 成 ， 但 对 于 一 个 大 型 网 站 可 以 使 用 
的 分 布 式 服务 框架 ， 仪 有 Thrift 还 远 远 不 够 ,遗憾 的 是 ，Facebook 没 有 
开源 其 基于 Thrift 的 分 布 式 服务 框架 。 目 前 国内 有 较 多 成 功 实施 案例 的 
开源 分 布 式 服务 框架 是 阿里 巴巴 的 Dubbo 
(http://code.alibabatech.com/wiki/display/dubbo/Home/) 。 


我 们 以 阿里 巴巴 分 布 式 开源 框架 Dubbo 为 例 ， 分 析 其 架构 设计 ， 
如 图 7.6 所 示 。 


服务 提供 者 服务 器 


服务 框架 客户 庙 


远程 通信 模块 远程 通信 模块 服务 调用 线程 


图 7.6 “分 布 式 服务 框架 Dubbo 的 架构 原理 


服务 消费 者 程序 通过 服务 接口 使 用 服务 ， 而 服务 接口 通过 代理 加 
载 具 体 服务 ， 具 体 服务 可 以 是 本 地 的 代码 模块 ， 也 可 以 是 远程 的 服 
务 ， 因 此 对 应 用 较 少 侵入 : 应 用 程序 只 需要 调用 服务 接口 ， 服 务 框 染 
根据 配置 自动 调用 本 地 或 远程 实现 。 


服务 框架 客户 端 模块 通过 服务 注册 中 心 加 载 服 务 提 供 者 列表 〈 服 
务 提供 者 启动 后 自动 向 服务 注册 中 心 注册 上 自己 可 提供 的 服务 接口 列 
表 ) ， 查 找 需要 的 服务 接口 ， 并 根据 配置 的 负载 均衡 策略 将 服务 调用 
请 求 发 送 到 某 台 服务 提供 者 服务 器 。 如 果 服 务 调 用 失败 ， 客 户 端 模块 
会 目 动 从 服务 提供 者 列表 选择 一 个 可 提供 同样 服务 的 另 一 人 台 服 务 器 重 
新 请 求 服务 ， 实 现 服务 的 自动 失效 转移 ， 保 证 服务 高 可 用 。 


Dubbo 的 远程 服务 通信 模块 支持 多 种 通信 协议 和 数据 序列 化 协 
议 ， 使 用 NIO 通 信 框 架 ， 具 有 较 高 的 网 络 通信 性 能 。 


7.4 可 扩展 的 数据 结构 


传统 的 关系 数据 库 为 了 保证 关系 运算 《通过 SQL 语句 ) 的 正确 
性 ， 在 设计 数据 库 表 结构 的 时 候 ， 就 需要 指定 表 的 schema 一 一 字段 名 
称 ， 数 据 类 型 等 ， 并 要 遵循 特定 的 设计 范式 。 这 些 规范 带 来 的 一 个 问 
题 就 是 僵硬 的 数据 结构 难以 面 对 需 求 变更 带 来 的 挑战 ， 有 些 应 用 系统 
设计 者 通过 预先 设计 一 些 隐 余子 段 来 应 对 ， 不 过 显然 这 是 一 种 糟糕 的 
效 据 库 设计 。 


那么 有 没有 办 法 能 够 做 到 可 扩展 的 数据 结构 设计 呢 ? 无 需 修改 表 
结构 就 可 以 新 增 字 段 呢 ? 许多 NoSQL 数 据 库 使 用 的 ColumnFamily ( 列 
族 ) 设计 就 是 一 个 解决 方案 。ColumnFamily 最 早 在 Google 的 Bigtable 中 
使 用 ， 这 是 一 种 面向 列 族 的 稀 疏 矩阵 存储 格式 ， 如 表 7.1 所 示 。 


表 7.1 ”ColumnFamily 数 据 存储 格式 


这 是 一 个 学 生 的 基本 信息 表 ， 不 同学 生 的 联系 方式 各 不 相同 ， 选 
修 的 课程 也 不 同 ， 而 且 在 将 来 会 有 更 多 联系 方式 和 课程 加 入 到 这 张 
表 ， 如 果 按 照 传统 的 关系 数据 库 设 计 ， 无 论 提前 预 设 多 少见 余 字 段 都 
会 捉襟见肘 ， 疲 于 应 付 。 


而 使 用 支持 ColumnFamily 结 构 的 NoSQL 数 据 库 ， 创 建 表 的 时 候 ， 
只 需要 指定 ColumnFamily 的 名 字 ， 无 需 指 定 字 段 (Column) ， 可 以 在 
数据 写 入 时 再 指定 ， 通 过 这 种 方式 ， 数 据 表 可 以 包含 数 百 万 的 字段 ， 


使 得 应 用 程序 的 数据 结构 可 以 随意 扩展 。 而 在 查询 时 ， 可 以 通过 指定 


任意 字段 名 称 和 值 进行 查询 。 


7.5 ”利用 开放 平台 建设 网 站 生态 图 


网 站 的 价值 在 于 为 他 的 用 户 创造 价值 ， 淘 宝 的 价值 在 于 为 人 们 创 
造 交 易 的 平台 ;QQ 的 价值 在 于 为 人 们 创造 交流 的 平台 ;新浪 微 博 的 价 
值 在 于 为 人 们 创造 表达 自我 的 平台 。 只 有 用 户 得 到 了 他 们 想 要 的 价 
值 ， 他 们 才 愿 意 使 用 网 站 的 服务 ， 网 站 的 存在 才 有 意义 。 但 是 淘宝 有 
上 和 干 万 卖家 和 数 亿 买 家 ， 光 靠 淘 宝 一 个 公司 不 可 能 满足 所 有 用 户 的 需 
求 ， 同 样 ， 腾 讯 、 新 浪 微 博 也 无 法 面面俱到 照顾 好 如 此 庞大 的 用 户 
群 。 


另 一 方面 ， 用 户 却 不 需要 为 网 站 提供 的 价值 而 买单 。 没 有 人 需要 
为 自己 在 RQ 上 聊天 ， 在 淘宝 上 购物 ， 在 新 浪 发 微 博 而 付费 。 网 站 必须 
提供 更 多 的 增值 服务 才能 赚钱 。 比 如 ，QQ 可 以 卖 各 种 钻石 会 员 服 务 ， 
淘宝 可 以 出 卖 丙 品 排名 赚钱 ， 新 浪 微 博 靠 植 入 广告 也 能 赚 点 钱 。 根 据 
长 尾 效应 ， 这 些 增值 服务 的 数量 越 是 庞大 ， 种 类 越 是 繁多 ， 盔 利 也 就 
越 多 。 同 样 ， 一 个 网 站 目 己 能 够 开发 出 的 增值 服务 也 是 有 限 的 。 


大 型 网 站 为 了 更 好 地 服务 自己 的 用 户 ， 开 发 更 多 的 增值 服务 ， 会 
把 网 站 内 部 的 服务 封装 成 一 些 调 用 接口 开放 出 去 ， 供 外 部 的 第 三 方 开 
发 者 使 用 ， 这 个 提供 开放 接口 的 平台 被 称 作 开放 和 平台。 第 三 方 开发 者 
利用 这 些 开 放 的 接口 开发 应 用 程序 (APP) 或 者 网 站 ， 为 更 多 的 用 户 
提供 价值 。 网 站 、 用 户 、 第 三 方 开 发 者 互相 依赖 ， 形 成 一 个 网 站 的 生 
态 圈 ， 既 为 用 户 提 供 更 多 的 价值 ， 也 提高 了 网 站 和 第 三 方 开 发 者 的 竞 
争 能 力 盘 利 能 力 。 


目前 百度 、 淘 宝 、 腾 讯 等 国内 互联 网 巨头 都 建设 有 自己 的 开放 平 
台 ， 力 图 利用 自己 庞大 的 用 户 群 吸引 第 三 方 开发 者 ， 打 造 一 个 更 加 庞 


大 的 航母 战斗 群 ， 在 市 场 竞 争 中 呼风唤雨 ， 立 于 不 败 之 地 。 


开放 平台 是 网 站 内 部 和 外 部 交互 的 接口 ， 外 部 需要 面 对 众多 的 第 
三 方 开 发 者 ， 内 部 需要 面 对 网 站 内 诸多 的 业务 服务 。 虽 然 每 个 网 站 的 
业务 场景 和 需求 都 各 不 相同 ， 但 是 开放 平台 的 架构 设计 却 大 同 小 异 ， 
如 图 7.7 所 示 。 


网 站 内 部 服务 


上 


Open API 


| 第 三 方 应 用 | 


图 7.7 开放 平台 架构 原理 


API 接 口 : 是 开放 平台 暴露 给 开发 者 使 用 的 一 组 API， 其 形式 可 
以 是 RESTful、WebService、RPC 等 各 种 形式 。 


协议 转换 : 将 各 种 API 输 入 转换 成 内 部 服务 可 以 识别 的 形式 ， 并 
将 内 部 服务 的 返回 封装 成 API 的 格式 。 


安全 : 除了 一 般 应 用 需要 的 身份 识别 、 权 限 控制 等 安全 手段 ， 开 
放 平 台 还 需要 分 级 的 访问 带宽 限制 ， 保 证 平台 资源 被 第 三 方 应 用 公平 


合理 使 用 ， 也 保护 网 站 内 部 服务 不 会 被 外 部 应 用 拖 垮 。 
审计 : 记录 第 三 方 应 用 的 访问 情况 ， 并 进行 监控 、 计 费 等 。 


路 由 : 将 开放 平台 的 各 种 访问 路 由 映射 到 具体 的 内 部 服务 。 


流程 : 将 一 组 离散 的 服务 组 织 成 一 个 上 下 文 相 关 的 新 服务 ， 隐 藏 
服务 细 世 ， 提 供 统一 接口 供 开 发 者 调用 。 


7.6 “小 结 


网 站 通过 不 断 试 错 ， 在 残酷 的 市 场 中 寻找 自己 的 竞争 优势 ， 持 续 
地 推出 新 功能 ， 发 现 达 不 到 预期 ， 就 立马 下 线 。 所 以 我 们 看 到 网 站 总 
是 不 停 地 推出 新 功能 ， 发 布 新 产品 。 打 开 Google 首 页 的 “更 多 ”链接 ， 
Google 产 品 分 门 别 类 一 大 堆 ， 这 还 只 是 Google 重 点 推广 的 产品 中 的 一 
小 部 分 。 这 些 走马 灯 般 出 现 的 产品 背后 则 是 网 站 工程 师 圣 勤 的 工作 和 
汗水 。 


既然 我 们 知道 网 站 不 停 上 新 产品 是 其 生存 的 本 能 ， 谁 能 更 快 更 好 
地 推出 更 多 的 新 产品 ， 谁 就 活 得 更 滋润 ， 那 么 工程 师 就 要 做 好 准备 应 
付 这 种 局 面 。 马 克 思 的 劳动 价值 理论 告诉 我 们 ， 产 品 的 内 在 价值 在 于 
劳动 的 时 间 ， 劳 动 的 时 间 不 在 于 个 体 付出 的 劳动 时 间 ， 而 在 于 行业 一 
般 劳动 时 间 ， 资 本 家 只 会 为 行业 一 般 劳 动 时 间 买 单 ， 如 果 你 的 效率 低 
于 行业 一 般 劳 动 时 间 ， 对 不 起 ， 请 你 目 愿 加 班 。 反 之 ， 如 果 你 有 一 个 
更 具有 扩展 性 的 网 站 架构 ， 可 以 更 快速 地 开发 新 产品 ， 也 许 你 也 享受 
不 了 只 上 半天 班 的 福利 ， 但 是 至 少 在 这 个 全 行业 加 班 的 互联 网 领域 ， 
你 能 够 按时 下 班 ， 陪 陪 家 人 ， 看 看 星星 。 


8 ” 固 若 金 汤 ; 网 站 的 安全 架构 


从 互联 网 诞生 起 ， 安 全 威胁 就 一 直 伴 随 着 网 站 的 发 展 ， 各 种 Web 
攻击 和 信息 泄露 也 从 未 停止 。2011 年 中 国 互 联网 领域 爆 出 两 桩 比较 大 
的 安全 事故 ， 一 桩 是 新 浪 微 博 遭 XSS 攻 击 ， 另 一 桩 是 以 CSDN 为 代表 的 
多 个 网 站 泄露 用 户 密 码 和 个 人 信息 。 特 别 是 后 者 ， 因 为 影响 人 群 广 
泛 ， 部 分 受 影响 网 站 涉及 用 户 实 体 资产 和 交易 安全 ， 一 时 成 为 与 论 焦 
点 。 


让 我 们 先 回 顾 一 下 这 两 起 事故 。 


2011 年 6 月 28 日 ， 许 多 微 博 用 户 发 现 目 己 *“ 中 毒 ”， 目 动 天 注 了 一 个 
叫 hellosamy 的 用 户 ， 并 发 布 含有 病毒 的 微 博 ， 粉 丝 点 击 后 微 博 再 度 扩 
散 ， 短 时 间 内 大 量 用 户 中 招 ， 数 小 时 后 新 浪 微 博 修复 漏洞 。 


2011 年 12 月 ， 网 上 有 人 发 布 消息 称 CSDN 网 站 600 万 用 户 资料 和 密 
码 被 泄露 ， 很 快 该 消息 得 到 CSDN 官 方 承认 ， 紧 接着 ， 天 涯 社区 、 人 
人 网 等 多 个 重要 网 站 被 报告 泄露 用 户 数据 。 


那么 新 浪 微 博 是 如 何 被 攻击 的 ? CSDN 的 密码 为 何 会 泄露 ? 如 何 
防护 网 站 免 齐 攻击， 保护 好 用 户 的 敏感 信息 呢 ? 有 没有 百 毒 不 侵 、 固 
若 金 汤 的 网 站 呢 ? 


8.1” 道 高 一 尺 魔 高 一 丈 的 网 站 应 用 攻击 与 防御 


攻击 新 浪 微 博 的 手段 被 称 作 XSS 攻 击 ， 它 和 SQL 注 入 攻击 构成 网 
站 应 用 攻击 最 主要 的 两 种 手段 ， 全 球 大 约 70% 的 Web 应 用 攻击 都 来 自 
XSS 攻 击 和 SQL 注 入 攻击 。 此 外 ， 常 用 的 Web 应 用 还 包括 CSRF、 
Session 动 持 等 手段 。 


8.1.1 XSS 攻 击 


XSS 攻 击 即 跨 站 点 脚本 攻击 (Cross Site Script) ， 指 黑客 通过 自 
改 网 页 ， 注 入 恶意 HTML 脚本， 在 用 户 浏 览 网 页 时 ， 控 制 用 户 浏 览 
进行 恶 站 忌 意 操作 的 一 种 攻击 方式 。 


常见 的 XSS 攻 击 类 型 有 两 种 ， 一 种 是 反射 型 ， 攻 击 者 诱 使 用 户 点 
击 一 个 裕 入 恶意 脚本 的 链接 ， 达 到 攻击 的 目的 ， 如 图 8.1 所 示 。 上 文 提 
到 的 新 浪 微 博 攻 击 就 是 一 种 反射 型 XSS 攻 击 。 攻 击 者 发 布 的 微 博 中 有 
一 个 含有 恶意 脚本 的 URL (在 实际 应 用 中 ， 该 脚本 在 攻击 者 自己 的 服 
务 器 www.2kt.cn，URL 中 包含 脚本 的 链接 ) ， 用 户 点 击 该 URL， 脚 本 
会 自动 关注 攻击 者 的 新 浪 微 博 ID， 发 布 含 有 恶意 脚本 URL 的 微 博 ， 攻 
击 就 被 扩散 了 。 


3 用 户 点 击 该 URL， 亚 
意 脚本 被 浏览 器 解析 


2 攻击 者 推送 含有 恶意 脚本 的 URL 给 用 户 ， 如 : 
一 一 一 一 一 一 一 一 一 一 
weibo. comy puby st ar gxyyydW22%3e%3cscrIpt% 
20src=/ nnr. 2kt. crv images/t. jsW3eW3cAscript%3e? 


type=update 
攻击 者 


图 8.1 反射 型 XSS 攻 击 


这 次 攻击 还 只 是 一 次 恶作剧 而 已 ， 现 实 中 ， 攻 击 者 可 以 采用 XSS 
攻击 ， 偷 取 用 户 Cookie、 密 码 等 重要 数据 ， 进 而 伪造 交易 、 盗 穷 用 户 
财产 、 窃 取 情 报 。 


另外 一 种 XSS 攻 击 是 持久 型 XSS 攻 击 ， 黑 客 提交 含有 恶意 脚本 的 
请 求 ， 保 存在 被 攻击 的 Web 站 点 的 数据 库 中 ， 用 户 浏 览 网 页 时 ， 恶 意 
脚本 被 包含 在 正常 页 面 中 ， 达 到 攻击 的 目的 ， 如 图 8.2 所 示 。 此 种 攻击 
经 常 使 用 在 论坛 ， 博 客 等 Web 应 用 中 。 


庆 慎 潍 遇 靳 加 淮 泗 


淘 灌 


含有 恶意 脚本 
的 请 求 


6 浏览 器 解析 页 面 ， 
恶意 脚本 被 执行 


图 8.2 ”持久 型 XSS 攻 击 


XSS 攻 击 相 对 而 言 是 一 种 “古老 ”的 攻击 手段 ， 却 又 历久 弥 新 ， 不 
断 变 化 出 新 的 攻击 花样 ， 许 多 以 前 认为 不 可 能 用 来 攻击 的 漏洞 也 逐渐 
被 攻击 者 利用 。 因 此 XSS 防 攻击 也 是 非常 复杂 的 。 主 要 手段 有 如 下 两 
种 。 


XSS 攻 击 者 一 般 都 是 通过 在 请 求 中 语 入 恶意 脚本 达到 攻击 的 目 
的 ， 这 些 脚本 是 一 般 用 户 输入 中 不 使 用 的 ， 如 果 进 行 过 滤 和 消毒 处 
理 ， 即 对 某 些 html 危 险 字 符 转 义 ， 如 “>” 转 义 为 “&gt*"、“<”” 转 义 为 
“&lt" 等 ， 就 可 以 防止 大 部 分 攻击 。 为 了 避免 对 不 必要 的 内 容错 误 转 
义 ， 如 “3<5” 中 的 “<” 需 要 进行 文本 匹配 后 再 转 义 ， 如 “<img src 三 ”这 样 


的 上 下 文中 的 “<” 才 转 义 。 事 实 上 ， 消 毒 几乎 是 所 有 网 站 最 必 备 的 XSS 
防 攻击 手段 。 


HttpOnly 


最 早 由 微软 提出 ， 即 浏览 器 禁止 页 面 JavaScript 访 问 融 有 HttpOnly 
属性 的 Cookie。HttpOnly 并 不 是 直接 对 抗 XSS 攻 击 的 ， 而 是 防止 XSS 攻 
击 者 窃取 Cookie。 对 于 存放 敏感 信息 的 Cookie， 如 用 户 认证 信息 等 ， 
可 通过 对 该 Cookie 添 加 HttpOnly 属 性 ， 避 免 被 攻击 脚本 窃取 。 


8.1.2 ”注入 攻击 


注入 攻击 主要 有 两 种 形式 ，SQL 注 入 攻击 和 OS 注入 攻击 。SQL 注 
入 攻击 的 原理 如 图 8.3 所 示 。 攻 击 者 在 HITP 请 求 中 注入 恶意 SQL 命令 
(drop table users;) ， 服 务 器 用 请 求 参 数 构造 数据 库 SQL 命 令 时 ， 亚 意 
SQL 被 一 起 构造 ， 并 在 数据 库 中 执行 。 


2 在 数据 库 中 执行 如 下 SQL，users 表 被 量 除 


Select * from users Where Username=Frank:drop table Users- 一 : 


1 攻击 者 皮 送 含有 恶意 SQL 命令 的 http 请 求 如 : 


http://www.a.com?username=Frank’;drop table users;-- 


图 8.3 ”SQL 注入 攻击 


SQL 注入 攻击 需要 攻击 者 对 数据 库 结 构 有 所 了 解 才能 进行 ， 攻 击 
者 获取 数据 库 表 结构 信息 的 手段 有 如 下 几 种 。 


开源 


如 果 网 站 采用 开源 软件 搭建 ， 如 用 Discuz! 搭建 论坛 网 站 ， 那 么 
网 站 数据 库 结构 就 是 公开 的 ， 攻 击 者 可 以 直接 获得 。 


错误 回 显 


I 浏览 


I 浏览 


| 


如 果 网 站 开启 错误 回 显 ， 即 服务 器 内 部 500 错 误会 显示 
上 。 攻 击 者 通过 故意 构造 非法 参数 ， 使 服务 端 异常 信息 输出 
端 ， 为 攻击 猜测 数据 库 表 结 构 提供 了 便利 。 


| 


盲 注 


网 站 关闭 错误 回 显 ， 攻 击 者 根据 页 面 变 化 情况 判断 SQL 语句 的 执 
行情 况 ， 据 此 猜测 数据 库 表 结构 ， 此 种 方式 攻击 难度 较 大 。 


防御 SQL 注入 攻击 首先 要 避免 被 攻击 者 猜测 到 表 名 等 数据 库 表 结 
构 信息 ， 此 外 还 可 以 采用 如 下 方式 。 


消毒 


和 防 XSS 攻 击 一 样 ， 请 求 参数 消毒 是 一 种 比较 简单 粗暴 又 有 效 的 
手段 。 通 过 正则 匹配 ， 过 滤 请 求 数 据 中 可 能 注入 的 SQL ， 如 “drop 
table”»、“\b (?:update\b.*?\bset |delete\b\W*?\bfrom) \b” 等 。 


参数 绑 定 


使 用 预 编 译 手 段 ， 绑 定 参 数 是 最 好 的 防 SQL 注 入 方法 。 目 前 许多 
数据 访问 层 框 架 ， 如 IBatis，Hibernate 等 ， 都 实现 SQL 预 编译 和 参数 绑 
定 ， 攻 击 者 的 恶意 SQL 会 被 当做 SQL 的 参数 ， 而 不 是 SQL 命令 被 执 
行 。 


除了 SQL 注入 ， 攻 击 者 还 根据 具体 应 用 ， 注 入 OS 命 令 、 编 程 语言 
代码 等 ， 利 用 程序 漏洞 ， 达 到 攻击 目的 。 


8.1.3 ”CSRF 攻 击 


CSRF (Cross Site Request Forgery， 跨 站 点 请 求 伪造 ) ， 攻 击 者 通 
过 跨 站 请 求 ， 以 合法 用 户 的 身份 进行 非法 操作 ， 如 转账 交易 、 发 表 评 
论 等 ， 如 图 8.4 所 示 。CSRF 的 主要 手法 是 利用 跨 站 请 求 ， 在 用 户 不 知 
情 的 情况 下 ， 以 用 户 的 身份 伪造 请 求 。 其 核心 是 利用 了 浏览 器 Cookie 
或 服务 器 Session 策 略 ， 资 取 用 户 身 份 。 


1 用 户 登 录 受 
信任 服务 器 


4 在 用 户 不 知情 的 情况 下 ， 
执行 来 自 攻 击 者 的 请 求 


2 用 户 访 问 攻 击 者 【或 
用 户 9 


3 响应 消息 中 包含 访问 受 
信任 服务 器 的 请 求 


图 8.4 ”CSRF 攻 击 


相应 地 ，CSRF 的 防御 手段 主要 是 识别 请 求 者 身份 。 主 要 有 下 面 几 
种 方法 。 


表单 Token 


CSRF 是 一 个 伪造 用 户 请 求 的 操作 ， 所 以 需要 构造 用 户 请 求 的 所 有 
参数 才 可 以 。 表 单 Token 通 过 在 请 求 参数 中 增加 随机 数 的 办 法 来 阻止 攻 
击 者 获得 所 有 请 求 参 数 : 在 页 面 表单 中 增加 一 个 随机 数 作为 Token， 每 
次 响应 页 面 的 Token 都 不 相同 ， 从 正常 页 面 提 交 的 请 求 会 包含 该 Token 
值 ， 而 伪造 的 请 求 无 法 获得 该 值 ， 服 务 器 检查 请 求 参数 中 Token 的 值 是 
否 存在 并 且 正 确 以 确定 请 求 提交 者 是 否 合法 。 


验证 码 

相对 说 来 ， 验 证 码 则 更 加 简单 有 效 ， 即 请 求 提交 时 ， 需 要 用 户 输 
入 验证 码 ， 以 避免 在 用 户 不 知情 的 情况 下 被 攻击 者 伪造 请 求 。 但 是 输 
入 验证 码 是 一 个 粳 糕 的 用 户 体 验 ， 所 以 请 在 必要 时 使 用 ， 如 支付 交易 
等 关键 页 面 。 

Referer check 

HTTP 请 求 汰 的 Referer 域 中 记录 着 请 求 来 源 ， 可 通过 检查 请 求 来 
源 ， 验 证 其 是 否 合法 。 很 多 网 站 使 用 这 个 功能 实现 图 片 防盗 链 (如 果 
图 片 访问 的 页 面 来 源 不 是 来 自 自 己 网 站 的 网 页 就 拒绝 ) 。 


8.1.4 ”其 他 攻击 和 漏洞 


除了 上 面 提 到 的 常见 攻击 ， 还 有 一 些 漏洞 也 常 被 黑客 利用 。 


Error Code 


也 称 作 错 误 回 显 ， 许 多 Web 服 务 器 默认 是 打开 异常 信息 输出 的 ， 
即 服务 器 端 未 处 理 的 异常 堆栈 信息 会 直接 输出 到 客户 端 浏览 器 ， 这 种 
方式 虽然 对 程序 调试 和 错误 报告 有 好 处 ， 但 同时 也 给 黑客 造成 可 乘 之 
机 。 通 过 故意 制造 非法 输入 ， 使 系统 运行 时 出 错 ， 获 得 异常 信息 ， 从 
而 寻找 系统 漏洞 进行 攻击 。 防 御 手 段 也 很 简单 ， 通 过 配置 Web 服 务 器 
参数 ， 跳 转 500 页 面 (HTTP 响 应 码 500 表 示 服 务 器 内 部 错误 ) 到 专门 的 
错误 页 面 即 可 ， Web 应 用 常用 的 MVC 框 架 也 有 这 个 功能 。 


HTML 注 释 


为 调试 程序 方便 或 其 他 不 恰当 的 原因 ， 有 时 程序 开发 人 员 会 在 
PHP、JSP 等 服务 器 页 面 程序 中 使 用 HTML 注 释 语法 进行 程序 注释 ， 这 
些 HTML 注 释 就 会 显示 在 客户 端 浏览 器 ， 给 黑客 造成 攻击 便利 。 程 序 
最 终 发 布 前 需要 进行 代码 review 或 自动 扫描 ， 避 和 免 HTML 注 释 漏 洞 。 


文件 上 传 


一 般 网 站 都 会 有 文件 上 传 功能 ， 设 置 头 像 、 分 享 视 频 、 上 传 附 件 
等 。 如 果 上 传 的 是 可 执行 的 程序 ， 并 通过 该 程序 获得 服务 器 端 命令 执 
行 能 力 ， 那 么 攻击 者 几乎 可 以 在 服务 器 上 为 所 欲 为 ， 并 以 此 为 跳板 攻 
击 集群 环境 的 其 他 机 器 。 最 有 效 的 防御 手段 是 设置 上 传 文件 白 名 单 ， 
只 允许 上 传 可 靠 的 文件 类 型 。 此 外 还 可 以 修改 文件 名 、 使 用 专门 的 存 
储 等 手段 ， 保 护 服务 器 免 受 上 传 文件 攻击 。 


路 径 遍 历 


攻击 者 在 请 求 的 URL 中 使 用 相对 路 径 ， 遍 历 系统 未 开放 的 目录 和 
文件 。 防 御 方法 主要 是 将 JS、CSS 等 资源 文件 部 署 在 独立 服务 器 、 使 
用 独立 域名 ， 其 他 文件 不 使 用 静态 UREL 访问 ， 动 态 参 数 不 包 含 文件 路 
径 信息 。 

8.1.5 “Web 应 用 防火 墙 

网 站 面临 的 安全 问题 复杂 多 样 ， 各 种 攻击 手段 日 新 月 异 ， 新 型 漏 
洞 不 断 被 报告 。 如 果 有 一 款 产 品 能 够 统一 拦截 请 求 ， 过 滤 恶 意 参 数 ， 
自动 消毒 、 添 加 Token， 并 且 能 够 根据 最 新 攻击 和 漏洞 情报 ， 不 断 升级 
对 策 ， 处 理 掉 大 多 数 令 人 头痛 的 网 站 攻击 ， 就 是 一 件 很 美妙 的 事 了 。 


非常 幸运 ， 真 的 有 这 样 的 产品 ModSecurityo 


ModSecurity 是 一 个 开源 的 Web 应 用 防火 墙 ， 探 测 攻击 并 保护 Web 
应 用 程序 ， 既 可 以 宜 入 到 Web 应 用 服务 器 中 ， 也 可 以 作为 一 个 独立 的 
应 用 程序 启动 。ModSecurity 最 早 只 是 Apache 的 一 个 模块 ， 现 在 已 经 有 
Java、.NET 多 个 版 本 ， 并 支持 Nginx。 


ModSecurity 采 用 处 理 逻 辑 与 攻击 规则 集合 分 离 的 架构 模式 。 处 理 
逻辑 (执行 引 稳 ) 负责 请 求 和 响应 的 拦截 过 滤 ， 规 则 加 载 执行 等 功 
能 。 而 攻击 规则 集合 则 负责 描述 对 具体 攻击 的 规则 定义 、 模 式 识别 、 
防御 策略 等 功能 (可 以 通过 文本 方式 进行 描述 。 处 理 逻 辑 比 较 稳 
定 ， 规 则 集合 需要 不 断 针 对 漏洞 进行 升级 ， 这 是 一 种 可 扩展 的 染 构 设 
计 ， 如 图 8.5 所 示 。 


应 用 服务 器 【Apache ) 


ModSecurity 


攻击 规则 集合 


图 8.5 “ModSecurity 架 构 原理 


除了 开源 的 ModeSecurity， 还 有 一 些 商 业 产品 也 实现 Web 应 用 防火 
墙 功 能 ， 如 NEC 的 SiteShell。 


8.1.6 ”网 站 安全 漏洞 扫描 
和 计算 机 安全 漏洞 扫描 一 样 ， 网 站 也 需要 安全 漏洞 扫描 。 


网 站 安全 漏洞 扫描 工具 是 根据 内 置 规则 ， 构 造 具有 攻击 性 的 URL 
请 求 ， 模 拟 黑客 攻击 行为 ， 用 以 发 现 网 站 安全 漏洞 的 工具 。 许 多 大 型 
网 站 的 安全 团队 都 有 自己 开发 的 漏洞 扫描 工具 ， 不 定期 地 对 网 站 的 服 
务 器 进行 扫描 ， 查 漏 补缺 。 市 场 上 也 有 很 多 商用 的 网 站 安全 漏洞 扫描 


平台 。 


8.2 ”信息 加 密 技术 及 密 钥 安 全 管理 


2011 年 12 月 被 曝 的 CSDN 密 码 泄露 事故 中 ， 网 站 安全 措施 不 力 ， 
导致 用 户 数据 库 被 黑客 <“ 拖 库 ”并 不 稀奇 ， 令 人 错 收 的 是 数据 库 中 的 用 
户 密码 居然 是 明文 保存 ， 导 致密 码 泄露 ， 成 为 地 下 黑市 交易 的 商品 。 


衣 常 ， 为 了 保护 网 站 的 敏感 数据 ， 应 用 需要 对 这 些 信息 进行 加 密 
处 理 ， 信 息 加 密 技术 可 分 为 三 类 : 单项 散 列 加 密 、 对 称 加 密 和 非 对 称 
加 密 。 


8.2.1 ” 单 向 散 列 加 密 


单 向 散 列 加 密 是 指 通过 对 不 同 输入 长 度 的 信息 进行 散 列 计算 ， 得 
到 固定 长 度 的 输出 ， 这 个 散 列 计算 过 程 是 单 向 的 ， 即 不 能 对 固定 长 度 
的 输出 进行 计算 从 而 获得 输入 信息 ， 如 图 8.6 所 示 。 


salt 


一 一 明文 单 回 散 列 算法 密 文 一 一 > 


图 8.6 ” 单 向 散 列 加 密 


利用 单 向 散 列 加 密 的 这 个 特性 ， 可 以 进行 密码 加 密 保存 ， 即 用 户 
注册 时 输入 的 密码 不 直接 保存 到 数据 库 ， 而 是 对 密码 进行 单 向 散 列 加 
密 ， 将 密 文 存 入 数据 库 ， 用 户 登 录 时 ， 进 行 密码 验证 ， 同 样 计算 得 到 
输入 密码 的 密 文 ， 并 和 数据 库 中 的 密 文 比较 ， 如 果 一 致 ， 则 密码 验证 
成 功 ， 具 体 过 程 如 图 8.7 所 示 。 


2.1: 对 密码 单 向 散 列 加 密 () 


2.2: 密码 密 文 存 入 数据 库 () 


4: 输入 ID， 密码 () 4.1: 对 输入 密码 单 向 散 列 加 密 () 


| 
4.2: 从 数据 获取 密码 密 文 () “| 


4.3: 比较 输入 的 密码 密 文 和 数 
据 库 密码 密 文 () 


图 8.7 ”密码 保存 与 验证 


这 样 保存 在 数据 库 中 的 是 用 户 输入 的 密码 的 密 文 ， 而 且 不 可 逆 地 
计算 得 到 密码 的 明文 ， 因 此 即使 数据 库 被 < 拖 库 ?， 也 不 会 泄露 用 户 的 


密 全 信 息 0 


虽然 不 能 通过 算法 将 单 向 散 列 密 文 反 算得 到 明文 ， 但 是 由 于 人 们 
设置 密码 具有 一 定 的 模式 ， 因 此 通过 彩虹 表 (人 们 常用 密码 和 对 应 的 
密 文 天 系 表 ) 等 手段 可 以 进行 猜测 式 破解 。 


为 了 加 强 单 向 散 列 计算 的 安全 性 ， 还 会 给 散 列 算法 加 点 盐 
(salt) ，salt 相 当 于 加 密 的 密 钥 ， 增 加 破解 的 难度 。 


常用 的 单 向 散 列 算法 有 MD5、SHA 等 。 单 向 散 列 算法 还 有 一 个 特 
点 就 是 输入 的 任何 微小 变化 都 会 导致 输出 的 完全 不 同 ， 这 个 特性 有 时 
也 会 被 用 来 生成 信息 摘要 、 计 算 具 有 高 离散 程度 的 随机 数 等 用 途 。 


8.2.2 “对称 加 密 


所 谓 对 称 加 密 是 指 加 密 和 解密 使 用 的 密 钥 是 同一 个 密 钥 (或 者 可 
以 互相 推算 ) ， 如 图 8.8 所 示 。 


一 一 明文 加 密 算 法 密 葡 解密 站 法 明文 一 一 > 


图 8.8 ”对 称 加 密 


对 称 加 密 通常 用 在 信息 需要 安全 交换 或 存储 的 场合 ， 如 Cookie 加 
密 、 通 信和 加 密 等 。 
对 称 加 密 的 优点 是 算法 简单 ， 加 解密 效率 高 ， 系 统 开销 小 ， 适 合 
对 大 量 数据 加 密 。 缺 点 是 加 解密 使 用 同一 个 密 钥 ， 远 程 通信 的 情况 下 
如 何 安全 的 交换 密 钥 是 个 难题 ， 如 果 密 钥 丢 失 ， 那 么 所 有 的 加 密 信息 
也 就 没有 秘密 可 言 了 。 
常用 的 对 称 加密 算 法 有 DES 算 发 、RC 算 法 等 。 对 称 加 密 是 一 种 传 
加 密 手 段 ， 也 是 最 常用 的 加 密 手段 ， 适 用 于 绝 大 多 数 需 要 加 密 的 场 


O 


8.2.3 ” 非 对 称 加 密 


路 浸 


不 同 于 对 称 加 密 ， 非 对 称 加 密 和 解密 使 用 的 密 钥 不 是 同一 密 钥 ， 
其 中 一 个 对 外 界 公开 ， 被 称 作 公 钥 ， 另 一 个 只 有 所 有 者 知道 ， 被 称 作 
私 钥 。 用 公 钥 加 密 的 信息 必须 用 私 钥 才能 解 开 ， 反 之 ， 用 私 钥 加 密 的 
信息 只 有 用 公 钥 才能 解 开 ， 如 图 8.9 所 示 。 理 论 上 说 ， 不 可 能 通过 公 铀 
计算 获得 私 衣 。 


图 8.9” 非 对 称 加 密 
非 对 称 加 密 技 术 通常 用 在 信息 安全 传输 ， 数 字 签名 等 场合 。 


信息 发 送 者 A 通过 公开 渠道 获得 信息 接收 者 B 的 公 钥 ， 对 提交 信息 
进行 加 密 ， 然 后 通过 非 安 全 传输 通道 将 密 文 信息 发 送 给 B，B 得 到 密 文 
言 息 后 ， 用 自己 的 私 钥 对 信息 进行 解密 ， 获 得 原始 的 明文 信息 。 即 使 
密 文 信息 在 传输 过 程 中 遵 到 穷 取 ， 窍 取 者 没有 解密 密 钥 也 无 法 还 原 明 
文 。 


数字 签名 的 过 程 则 相反 ， 签 名 者 用 自己 的 私 钥 对 信息 进行 加 密 ， 
然后 发 送 给 对 方 ， 接 收 方 用 签名 者 的 公 钥 对 信息 进行 解密 ， 获 得 原始 
明文 信息 ， 由 于 私 钥 只 有 签名 者 拥有 ， 因 此 该 信息 是 不 可 抵赖 的 ， 具 
有 签名 的 性 质 。 


在 实际 应 用 中 ， 常 常会 混合 使 用 对 称 加 密 和 非 对 称 加密 。 先 使 用 
非 对 称 加 密 技 术 对 对 称 密 钥 进行 安全 传输 ， 然 后 使 用 对 称 加 密 技术 进 


行 信息 加 解密 与 交换 。 而 有 时 ， 对 同一 个 数据 两 次 使 用 非 对 称 加 密 ， 
可 同时 实现 信息 安全 传输 与 数字 签名 的 目的 。 


非 对 称 加 密 的 常用 算法 有 RSA 算 法 等 。HTTPS 传 输 中 浏览 器 使 用 
的 数字 证 书 实质 上 是 经 过 权威 机 构 认证 的 非 对 称 加 密 的 公 钥 。 


8.2.4 ” 密 钥 安全 管理 


前 述 的 几 种 加 密 技术 ， 能 够 达到 安全 保密 效果 的 一 个 重要 前 提 是 
密 钥 的 安全 。 不 管 是 单 向 散 列 加 密 用 到 的 salt、 对 称 加 密 的 密 钥 、 还 是 
非 对 称 加密 的 私 钥 ， 一 旦 这 些 密 钥 泄露 出 去 ， 那 么 所 有 基于 这 些 密 钥 
加 密 的 信息 就 失去 了 秘密 性 。 


信息 的 安全 是 靠 密 钥 保证 的 。 但 在 实际 中 经 常 看 到 ， 有 的 工程 师 
把 密 钥 直 接 写 在 源 代码 中 ， 稍 好 一 点 的 写 在 配置 文件 中 ， 线 上 和 开发 
环境 配置 不 同 的 密 钥 。 总 之 密 钥 本 身 是 以 明文 的 方式 保存 ， 并 且 很 多 
人 可 以 接触 到 ， 至 少 在 公司 内 部 ， 密 钥 不 是 秘密 。 


实践 中 ， 改 善 密 钥 安全 性 的 手段 有 两 种 。 


一 种 方案 是 把 密 钥 和 算法 放 在 一 个 独立 的 服务 器 上 ， 甚 至 做 成 一 
个 专用 的 硬件 设施 ， 对 外 提供 加 密 和 解密 服务 ， 应 用 系统 通过 调用 这 
个 服务 ， 实 现 数据 的 加 解密 。 由 于 密 钥 和 算法 独立 部 署 ， 由 专人 维 
护 ， 使 得 密 钥 泄 露 的 概率 大 大 降低 。 但 是 这 种 方案 成 本 较 高 ， 而 且 有 
可 能 会 成 为 应 用 的 瓶颈 ， 每 次 加 密 、 解 密 都 需要 进行 一 次 远程 服务 调 
用 ， 系 统 性 能 开销 也 较 大 。 


另 一 种 方案 是 将 加 解密 算法 放 在 应 用 系统 中 ， 密 钥 则 放 在 独立 服 
务 器 中 ， 为 了 提高 密 钥 的 安全 性 ， 实 际 存 储 时 ， 密 钥 被 切 分 成 数 片 ， 


加 密 后 分 别 保 存在 不 同 存 储 介质 中 ， 兼 顾 密 钥 安全 性 的 同时 又 改善 了 
性 能 ， 如 图 8.10 所 示 。 


密 钥 服务 器 


密 钥 服务 


File Server 


A 和 ~ 
包皮 


密 钥 申请 者 密 钥 管理 者 安全 审核 


图 8.10” 密 钥 安 全 管理 


应 用 程序 调用 密 钥 安 全 管理 系统 提供 的 加 解密 服务 接口 对 信息 进 
行 加 解密 ， 该 接口 实现 了 常用 的 加 密 解密 算法 并 可 根据 需求 任意 扩 
展 。 加 解密 服务 接口 通过 密 钥 服 务 器 的 密 钥 服务 取得 加 解密 密 钥 ， 并 
缓存 在 本 地 (定时 更 新 ) 。 而 密 钥 服务 器 中 的 密 钥 则 来 自 多 个 密 钥 存 
储 服务 器 ， 一 个 密 钥 分 片 后 存储 在 多 个 存储 服务 器 中 ， 每 个 服务 器 都 
有 专人 负责 管理 。 密 钥 申请 者 、 密 钥 管 理 者 、 安 全 审核 人 员 通 过 密 钥 
管理 控制 台 管理 更 新 密 钥 ， 每 个 人 各 司 其 事 ， 没 有 人 能 查看 完整 的 密 
钥 信息 。 


8.3 ”信息 过 滤 与 反 垃 圾 


我 国 的 信息 过 滤 技术 是 走 在 世界 前 列 的 ， 尽 管 如 此 ， 在 各 种 社区 
网 站 和 个 人 邮箱 中 ， 广 告 和 垃圾 信息 仍然 屡见不鲜 、 泛 小 成 灾 。 


常用 的 信息 过 滤 与 反 垃圾 手段 有 以 下 几 种 。 
8.3.1 文本 匹配 


文本 匹配 主要 解决 敏感 词 过 滤 的 问题 。 通 第 网 站 维护 一 份 敏 感 词 
列表 ， 如 果 用 户 发 表 的 信息 含有 列表 中 的 敏感 词 ， 则 进行 消毒 处 理 
(将 敏感 词 转 义 为 ***) 或 拒绝 发 表 。 


那么 如 何 快 速 地 判断 用 户 信息 中 是 否 含有 敏感 词 呢 ? 如 果 敏 感 词 
比较 少 ， 用 户 提交 信息 文本 长 度 也 较 短 ， 可 直接 使 用 正则 表达 式 匹 
配 。 但 是 正则 表达 式 的 效率 一 般 较 差 ， 当 敏感 词 很 多 ， 用 户 发 布 的 信 
息 也 很 长 ， 网 站 并 发 量 较 高 时 ， 就 需要 更 合适 的 方法 来 完成 ， 这 方面 
公开 的 算法 有 很 多 ， 基 本 上 都 是 Trie 树 的 变种 ， 空 间 和 时 间 复 杂 度 都 
比较 好 的 有 双 数 组 Trie 算 法 等 。 


Trie 算 法 的 本 质 是 确定 一 个 有 限 状 态 自动 机 ， 根 据 输入 数据 进行 
状态 转移 。 双 数组 Trie 算 法 优化 了 Tie 算法， 利用 两 个 稀 疏 数组 存储 树 
结构 ，base 数 组 存储 Trie 树 的 节点 ，check 数 组 进行 状态 检查 。 双 数组 
Trie 数 需要 根据 业务 场景 和 经 验 确 定数 组 大 小 ， 避 免 数 组 过 大 或 者 冲 


突 过 多 。 


另 一 种 更 简单 的 实现 是 通过 构造 多 级 Hash 表 进行 文本 匹配 。 假 设 
敏感 词 表 包含 敏感 词 : 阿拉 伯 、 阿 拉 汗 、 阿 油 、 北 京 、 北 大 功 、 北 


风 。 那 么 可 以 构造 如 图 8.11 所 示 的 过 滤 树 ， 用 户 提交 的 信息 逐 字 顺序 
在 过 滤 树 中 匹配 。 过 滤 树 的 分 支 可 能 会 比较 多 ， 为 了 提高 匹配 速度 ， 
减少 不 必要 的 查找 ， 同 一 层 中 相同 父 节点 的 字 可 放 在 Hash 表 中 。 该 方 
案 处 理 速 度 较 快 ， 稍 加 变形 ， 即 可 适应 各 种 过 滤 场景 ， 缺 点 是 使 用 
Hash 表 会 浪费 部 分 内 存 空间 ， 如 果 网 站 敏感 词 数量 不 多 ,浪费 部 分 内 
存 还 是 可 以 接受 的 。 
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图 8.11 敏感 词 过 滤 树 


有 时 候 ， 为 了 绕 过 敏感 词 检查 ， 某 些 输入 信息 会 被 做 一 些 手 脚 ， 
如 * 阿 _ 拉 _ 伯 ”， 这 时 候 还 需要 对 信息 做 降 噪 预 处 理 ， 然 后 再 进行 匹 
配 。 


8.3.2 ”分 类 算法 


早期 网 站 识别 垃圾 信息 的 主要 手段 是 人 工 方 式 ， 后 台 运 营 人 员 对 
信息 进行 人 工 审核 。 对 大 型 网 站 而 言 ， 特 别 是 以 社交 为 主 的 Web2.0 网 
站 ， 如 Facebook 或 Linkedin 这 样 的 网 站 ， 每 天 用 户 提 交 的 信息 数 千 万 
计 ， 许 多 垃圾 信息 混杂 其 中 ， 影 响 用 户 体 验 ， 而 对 于 B2B 类 的 电子 商 
务 交 易 撮合 网 站 ， 用 户主 要 通过 站 内 信 等 手段 进行 商品 信息 咨询 ， 有 
时 候 站 内 信和 充斥 大 量 广告 ， 甚 至 淹没 正常 询 盘 ， 引 起 用 户 严 重 不 满 和 
投诉 。 


对 如 此 海量 的 信息 进行 人 工 审核 是 不 现实 的 ， 对 广告 贴 、 垃 圾 邮 
件 等 内 容 的 识别 比较 好 的 自动 化 方法 是 采用 分 类 算法 。 


以 反 垃 圾 邮件 为 例 说 明 分 类 算法 的 使 用 ， 如 图 8.12 所 示 。 先 将 批 
量 已 分 类 的 邮件 样本 (如 50000 封 正常 邮件 ，2000 封 垃圾 邮件 ) 输入 分 
类 算法 进行 训练 ， 得 到 一 个 垃圾 邮件 分 类 模型 ， 然 后 利用 分 类 算法 结 
合 分 类 模型 对 待 处 理 邮 件 进行 识别 。 


( 待 处 理 邮件 ) 一 一 


a 一 正常 邮件 ) 
i 

于 

分 类 算法 识别 > 

[3 
> 
> yg 一 垃圾 邮件 ) 
(他 时 分类 的 邮件 ) 一 一 一 | 分 类 算法 训练 。 | >( 。 分 类 村 型 SS 


图 8.12 ”利用 分 类 算法 识别 垃圾 邮件 


比较 简单 实用 的 分 类 算法 有 贝 叶 斯 分 类 算法 ， 这 是 一 种 利用 概率 
统计 方法 进行 分 类 的 算法 。 贝 叶 斯 算法 解决 概率 论 中 的 一 个 典型 问 
题 : 一 号 箱子 放 有 红色 球 和 白色 球 各 20 个 ， 二 号 箱子 放 有 和 白色 球 10 
个 ， 红 色 球 30 个 ， 现 在 随机 挑选 一 个 箱子 ， 取 出 来 一 个 球 的 颜色 是 红 
色 的 ， 请 问 这 个 球 来 自 一 号 箱子 的 概率 是 多 少 。 


利用 贝 叶 斯 算法 进行 垃圾 邮件 的 识别 基于 同样 原理 ， 根 据 已 分 类 
的 样本 信息 获得 一 组 特征 值 的 概率 ， 如 “茶叶 ”这 个 词 出 现在 垃圾 邮件 
中 的 概率 为 20% ， 出 现在 非 垃圾 邮件 中 的 概率 为 1% ， 就 得 到 分 类 模 
型 。 然 后 对 待 处 理 邮 件 提取 特征 值 ， 比 如 取 到 了 茶叶 这 个 特征 值 ， 结 
合 分 类 模型 ， 就 可 以 判断 其 分 类 。 贝 叶 斯 算法 得 到 的 分 类 判断 是 一 个 


概率 值 ， 因 此 会 存在 误 判 〈 非 垃圾 邮件 判 为 垃圾 邮件 ) 和 漏 判 《垃圾 
邮件 判 为 非 垃圾 邮件 ) 。 


贝 叶 斯 算法 认为 特征 值 之 间 是 独立 的 ， 所 以 也 被 称 作 是 朴素 贝 叶 
斯 算法 (Native Bayes) ， 这 个 假设 很 多 时 候 是 不 成 立 的 ， 特 征 值 之 间 
具有 关联 性 ， 通 过 对 朴素 贝 叶 斯 算法 增加 特征 值 的 关联 依赖 处 理 ， 得 
到 TAN 算法 。 更 进一步 ， 通 过 对 关联 规则 的 聚 类 挖掘 ， 得 到 更 强大 的 
算法 ， 如 ARCS 算 法 (Association Rule Clustering System) 等 。 但 是 由 
于 贝 叶 斯 分 类 算法 简单 ， 处 理 速 度 快 ， 仍 是 许多 实时 在 线 系统 反 垃 圾 
的 首选 。 


分 类 算法 除了 用 于 反 垃圾 ， 还 可 用 于 信息 自动 分 类 ， 门 户 网 站 可 
用 该 算法 对 采集 来 的 新 闻 稿件 进行 目 动 分 类 ， 分 发 到 不 同 的 频道 。 邮 
箱 服 务 商 根据 邮件 内 容 推送 的 个 性 化 广告 也 可 以 使 用 分 类 算法 提高 投 
送 相关 度 。 


8.3.3” 黑 名 单 


对 于 垃圾 邮件 ， 除 了 用 分 类 算法 进行 内 容 分 类 识别 ， 还 可 以 使 用 
黑 名 单 技术 ， 将 被 报告 的 垃圾 邮箱 地 址 放 入 黑 名 单 ， 然 后 针对 邮件 的 
上 友 件 人 在 黑 名 单列 表 中 碍 找 ， 如 果 碍 找 成 功 ， 则 过 滤 该 邮件 。 


黑 名 单 也 可 用 于 信息 去 重 ， 如 将 文章 标题 或 者 文章 关键 段落 记录 
到 黑 名 单 中 ， 以 减少 搜索 引擎 收录 重复 信息 等 用 途 。 


黑 名 单 可 以 通过 Hash 表 实现 ， 该 方法 实现 简单 ， 时 间 复 杂 度 小 ， 
满足 一 般 场景 使 用 。 但 是 当 黑 名 单列 表 非 常 大 时 ，Hash 表 需要 占据 极 
大 的 内 存 空间 。 例 如 在 需要 处 理 10 亿 个 黑 名 单 邮 件 地 址 列表 的 场景 
下 ， 每 个 邮件 地 址 需要 8 个 字 节 的 信息 指纹 ， 即 需要 8GB 内 存 ， 为 了 减 


少 Hash 冲 突 ， 还 需要 一 定 的 Hash 空 间 宛 余 ， 假 如 空间 利用 率 为 50% ， 
则 需要 16GB 的 内 存 空 间 。 随 着 列表 的 不 断 增 大 ， 一 般 服务 器 将 不 可 承 
受 这 样 的 内 存 需 求 。 而 且 列 表 越 大 ，Hash 冲 突 越 多 ， 检 索 速 度 越 慢 。 


在 对 过 滤 需 求 要 求 不 完全 精确 的 场景 下 ， 可 用 布 隆 过 滤器 代替 
Hash 表 。 布 隆 过 滤器 是 用 它 的 发 明 者 巴顿 - 布 隆 的 名 字 命 名 的 ， 通 过 一 
个 二 进 制 列表 和 一 组 随机 数 映 射 国 效 实现 ， 如 图 8.13 所 示 。 


abc@@def com 


okes 


16GB 
图 8.13 布 隆 过 滤器 


仍 以 需要 处 理 10 亿 邮件 地 址 黑 名 单列 表 为 例 ， 在 内 存 中 建立 一 个 
2GB 大 小 的 存储 空间 ， 即 16GB 个 二 进 制 bit， 并 全 部 初始 化 为 0。 要 将 
一 个 邮箱 地 址 加 入 黑 名 单 时 ， 使 用 8 个 随机 映射 浮 数 (F1,F2,...,F8) 得 
到 0~16GB 范 围 内 的 8 个 随机 数 ， 从 而 将 该 邮箱 地 址 映射 到 16GB 二 进 制 
存储 空间 的 8 个 位 置 上 ， 然 后 将 这 些 位 置 置 为 1。 当 要 检查 一 个 邮箱 地 
址 是 否 在 黑 名 单 中 时 ， 使 用 同样 的 映射 图 数 ， 得 到 16GB 空 间 8 个 位 置 
上 的 bit， 如 果 这 些 值 都 为 1， 那 么 该 邮箱 地 址 在 黑 名 单 中 。 


可 以 看 到 ， 处 理 同样 数量 的 信息 ， 布 隆 过 滤器 只 使 用 Hash 表 所 需 
内 存 的 1/8。 但 是 布 隆 过 滤器 有 可 能 导致 系统 误 判 〈 布 隆 过 滤器 检查 在 
黑 名 单 中 ， 但 实际 却 并 未 放 入 过 ) 。 因 为 一 个 邮箱 地 址 映射 的 8 个 bit 
可 能 正好 都 被 其 他 邮箱 地 址 设 为 1 了 ， 这 种 可 能 性 极 小 ， 通 常 在 系统 可 
接受 范围 内 。 但 如 果 需 要 精确 的 判断 ， 则 不 适合 使 用 布 隆 过 滤器 。 


8.4 ”电子 商务 风险 控制 


电子 商务 网 站 在 给 人 们 带 来 购物 交易 的 极 大 便利 的 同时 ， 也 将 风 
险 带 给 了 对 网 络 安全 一 无 所 知 的 人 们 。 由 于 买卖 双方 的 信息 不 对 等 ， 
交易 本 来 就 存在 风险 ， 而 当 交 易 在 网 上 发 生 时 ， 买 卖 双 方 彼 此 一 无 所 
知 ， 交 易 风 险 也 就 更 加 难以 控制 。 如 果 一 个 电 丙 网 站 骗子 横行 ， 诚 信 
的 交易 者 屡屡 被 骗 ， 那 么 网 站 就 到 了 最 危险 的 时 候 ， 可 以 说 ， 交 易 安 
全 是 电子 商务 网 站 的 底线 。 


8.4.1 风险 


电子 商务 具有 多 种 形式 ，B2B、B2C、C2C 每 种 交易 的 场景 都 不 相 
同 ， 风 险 也 各 有 特点 ， 大 致 可 分 为 以 下 几 种 。 


账户 风险 : 包括 账户 被 黑客 次 用， 恶意 注册 账号 等 几 种 情形 。 


买 家 风险 : 买 家 恶意 下 单 占用 库存 进行 不 正当 竞争 ; 黄牛 利用 促 
销 抢 购 低 价 商品 ; 此 外 还 有 民品 拒 收 ， 欺 诈 退 款 及 常 抑 于 B2B 交 易 的 
虚假 询 盘 等 。 


卖家 风险 : 不 良 卖家 进行 恶意 欺诈 的 行为 ， 例 如 货 不 对 板 ， 虚 假 
贷 ， 炒 作 信 用 等 ， 此 外 还 有 出 售 违 禁 商 品 、 侵 权 产 品 等 。 


交易 风险 : 信用 卡 盗 刷 ， 支 付 欺诈 ， 洗 钱 套现 等 。 
8.4.2” 风 控 


大 型 电 商 网 站 都 配备 有 专门 的 风 控 团队 进行 风险 控制 ， 风 控 的 手 
段 也 包括 自动 和 人 工 两 种 。 机 器 自动 识别 为 高 风险 的 交易 和 信息 会 发 


送 给 风 控 审核 人 员 进 行人 工 审核 ， 机 器 自动 风 控 的 技术 和 方法 也 不 断 
通过 人 工 发 现 的 新 风险 类 型 进行 逐步 完善 。 

机 器 自动 风 控 的 技术 手段 主要 有 规则 引擎 和 统计 模型 。 

1。 规 则 引擎 


当 交 易 的 某 些 指标 满足 一 定 条 件 时 ， 就 会 被 认为 具有 高 风险 的 其 
诈 可 能 性 。 比 如 用 户 来 自 其 诈 高 发 地 区 ; 交易 金额 超过 某 个 数值 ; 和 
上 次 登录 的 地 址 距离 差距 很 大 ; 用 户 登 录 地 与 收 货 地 不 符 ; 用 户 第 一 
次 交易 等 等 。 


大 型 网 站 在 运营 过 程 中 ， 结 合 业界 的 最 新 发 现 ， 会 总 结 出 数 以 干 
计 的 此 类 高 风险 交易 规则 。 一 种 方案 是 在 业务 逻辑 中 通过 编程 方式 使 
用 if...else... 代 码 实 现 这 些 规 则 ， 可 想 而 知 ， 这 些 代 码 会 非常 庞大 ， 而 
且 由 于 运营 过 程 中 不 断 发 现 新 的 交易 风险 类 型 ， 需 要 不 断 调整 规则 ， 
代码 也 需要 不 断 修 改 .…… 


网 站 一 般 使 用 规则 引擎 技术 处 理 此 类 问题 。 规 则 引擎 是 一 种 将 业 
务 规则 和 规则 处 理 逻 辑 相 分 离 的 扶 术 ， 业 务 规则 文件 由 运营 人 员 通 过 
管理 界面 编辑 ， 当 需要 修改 规则 时 ， 无 需 更 改 代码 发 布 程序 ， 即 可 实 
时 使 用 新 规则 。 而 规则 处 理 人 逻辑 则 调用 规则 处 理 输入 的 数据 ， 如 图 
8.14 所 示 。 


风 控 规则 
管理 界面 


图 8.14 ”基于 规则 引擎 的 风险 控制 系统 


2。 统 计 模 型 


规则 引擎 虽然 技术 简单 ， 但 是 随 着 规则 的 逐渐 增加 ， 会 出 现 规则 
冲突 ， 难 以 维护 等 情况 ， 而 且 规 则 越 多 ， 性 能 也 越 差 。 目 前 大 型 网 站 
更 倾向 于 使 用 统计 模型 进行 风 控 。 风 控 领 域 使 用 的 统计 模型 使 用 前 面 
是 到 的 分 类 算法 或 者 更 复杂 的 机 器 学 习 算 法 进行 智能 统计 。 如 图 8.15 
所 示 ， 根 据 历史 交易 中 的 欺诈 交易 信 息 训练 分 类 算法 ， 然 后 将 经 过 采 
集 加 工 后 的 交易 信息 输入 分 类 算法 ， 即 可 得 到 交易 风险 分 值 。 


图 8.15 “基于 统计 模型 的 风险 控制 系统 


经 过 充分 训练 后 的 统计 模型 ， 准 确 率 不 低 于 规则 引擎 。 分 类 算法 
的 实时 计算 性 能 更 好 一 些 ， 由 于 统计 模型 使 用 模糊 识别 ， 并 不 精确 匹 
配 欺诈 类 型 规则 ， 因 此 对 新 出 现 的 交易 欺诈 还 具有 一 定 预测 性 。 


8.5 “小 结 


这 个 世界 没有 绝对 的 安全 ， 正 如 没有 绝对 的 自由 一 样 。 网 站 的 相 
对 安全 是 通过 提高 攻击 门槛 达到 的 。 让 攻击 者 为 了 获得 有 限 的 利益 必 
须 付 出 更 大 的 代价 ， 致 使 其 得 不 贷 失 ， 望 而 却步 。 


同时 ， 攻 击 与 防护 技术 作为 一 对 矛盾 共同 体 ， 彼 此 不 断 此 消 彼 
长 ,今天 的 高 枕 无 忧 ， 明 天 可 能 就 成 了 致命 的 漏洞 。 也 许 网 站 经 过 一 
番 大 的 重 构 和 优化 ， 在 某 一 段 时 间 不 需要 再 人 处理 高 可 用 或 高 性 能 的 间 
题 ， 但 是 修补 漏洞 、 改 善 安全 却 是 每 天 都 需要 面 对 的 课题 ， 永 远 不 能 
停 欣 。 


所 以 ， 很 遗憾 ， 这 个 世界 没有 固 若 金汤 的 网 站 安全 架构 ， 架 构 师 
只 能 每 天 都 打 起 百 分 百 的 精神 ， 预 防 可 能 的 漏洞 或 者 攻击 。 


第 3 篇 ”案例 


9 ”淘宝 网 的 架构 演化 案例 分 析 


2012 年 11 月 30 日 ， 淘 宝 (包括 天 猫 ) 的 当年 交易 额 突破 1 万 亿 ， 这 
是 一 个 可 以 地 晚 亚 马 逊 和 eBay 的 数字 。 而 就 在 此 前 不 久 的 2012 年 11 月 
11 日 ， 淘 宝 更 是 创造 了 全 球 电 子 商 务 的 奇迹 ， 当 天 : 


。 总 交易 额 : 191 亿 人 民 币 

零点 的 第 一 分 钟 ，1000 万 独立 用 户 涌 入 www.tmallcom 

全 天 访问 用 户 总 数 达 2 亿 1 千 3 百 万 ， 占 中 国 网 民 总 数 的 40% 
总 成 交 订 单数 : 1 亿 零 5 百 万 

高 峰 期 ， 每 分 钟 成 交 订 单 89678 笔 


淘宝 历年 交易 额 如 图 9.1 所 示 。 


历年 交易 额 ( 亿 ) 


图 9.1 淘宝 历年 交易 额 


注 : 淘宝 作为 阿里 巴巴 集团 旗下 网 站 ， 其 技术 和 集团 其 他 公司 有 着 千 丝 万 缕 的 联系 ， 本 章 主 
要 分 析 淘 宝 架 构 演化 ， 具 体 技术 不 特别 区 分 源 自 淘宝 抑或 阿里 巴巴 。 


所 有 这 些 绚丽 的 业务 数字 背后 是 淘宝 多 年 积淀 的 电子 商务 网 站 架 
构 技术 。 


9.1 淘宝 网 的 业务 发 展 历程 


淘宝 的 技术 是 和 淘宝 的 业务 一 起 发 展 起 来 的 ， 没 有 飞速 发 展 的 淘 
宝 业 务 ， 就 不 会 有 今天 让 技术 界 艳 黎 的 淘宝 技术 ， 可 以 说 ， 是 业务 驱 
0 导 不 往 前 走 。 而 淘宝 的 业务 也 经 历 了 由 简单 到 复杂 ， 由 初 

及 到 高 级 的 发 展 历程 ， 通 过 淘宝 首页 的 变迁 ， 我 们 可 以 看 出 淘宝 业务 
es 


2003 年 ， 在 马云 家 里 ， 用 一 个 买 来 的 C2C 交 易 软 件 稍 作 修 改 就 成 
了 最 初 的 淘宝 网 ， 简 约 也 简单 ， 如 图 9.2 所 示 。 


日 本 最 新 科技 ?党 思 公 司 ee 
荣 曾 出 品 ? 全新， 没有 使 je WER 
用 过 ? 县 


SFREANINEE POLO 2003 年 夏 地 最 新 区 
测 沪 时 自动 瑟 陆 : 厂 oti -从 ， 现 有 红 , 至， 洪 ， 党 


图 9.2 2003 年 的 淘宝 网 首页 


2004 年 ， 淘 宝 业 务 由 模仿 eBay 的 拍卖 交易 ， 开 始 向 一 口 价 交 易 转 
型 ， 也 就 是 现在 淘宝 购物 的 主要 交易 模式 ， 这 一 年 ， 淘 宝 的 架构 也 经 
历 了 一 次 重大 重 构 ，PHP 换 成 了 Java，MySQL 换 成 了 Oracle。 那 时 ， 


淘宝 网 首页 虽然 依旧 简单 ， 但 是 对 于 电子 商务 网 站 最 重要 的 部 分 一 一 
商品 类 目 开始 建立 并 成 为 重要 的 商品 导航 方式 ， 如 图 9.3 所 示 。 
芜 费 广 册 号 录 搜索 淘宝 旺旺 支付 宝 帮助 


淘宝 网 Taobao.com 并 和 次 | | 议和 
阿里 巴巴 旗下 网 站 
中 国志 子 南 各 这 人 联盟 发 起 同 站 


Ee 


光 有 游戏 主机 。 ”超人 气 博美 淘宝 香港 街 


百 款 彩 色彩 屏 性 局 吊带 NT 2 种 气 运动 由 
景 低 起 统统 50 元 手 货 下 手 要 快 25 元 起 就 网 了 吗 ? 平均 5 折 起 。 “地道 港 人 卖 港 贷 


公告 巷 


到 
到 


。 安 全 购物 锦 训 


成 交 超 10 亿 淘宝 亚洲 最 大 
淘宝 网 的 四 点 声明 
中 国 网 商 大 合 电子 商务 企业 版 本 调查 表 


新 人 初 体验 。 开店 创业 指南 
荷兰 执 卖 区 
D #m 真 汀 各 页 冲 


TeT ne 


图 9.3 500 填 海 坟 疝 间 


此 后 数 年 间 ， 淘 宝 逐 步 成 为 网 购 的 代名词 ， 引 领 中 国电 子 商 务 的 
步伐 ， 每 年 一 度 的 “ 双 十 一 ”促销 成 为 有 中 国 特色 的 购物 狂欢 节 。2012 


年 的 淘宝 网 首页 如 图 9.4 所 示 。 


加 手机 版 | tsaid 国 ~ 
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水 电焊 手机 应 用 “医药 久 
篇 互动 
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淘宝 商城 ) ”店铺 


棉衣 高 稍 灶 123 宗 划算 轻 济 羽绒 修身 牛仔 男 鞋 精 选 保 星 内 衣 围巾 美 拱 
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抢先 揭秘 
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9.9 元 起 


出 游 咀 相 随 


图 9.4 2012 年 淘宝 网 首页 


Hitao 妆 扮 ” ”本 地 生活 ” 淘宝 旅行 


更 多 > 
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国 
进行 时 会 员 俱 乐 部 消费 者 保障 


待 付款 : 0 
最 新 动态 : 0 


待 评价 : 0 待 收 从 确认 : D 
去 我 的 淘宝 看 更 多 


公告 ”规则 论坛 安全 中 心 ”公益 


10000 亿 ! 
最 党 ] 寻 找 不 一 样 的 淘 


便民 服务 


聚 划算 123 大 幕 拉 开 ! 
[警方 建 捕 多 名 差 评 师 


充 话费 游戏 旅行 保险 


手机 号 : 13805791119 浙江 移动 


面 值 : 加 100 元 合 50 元 加 其 他 |30 元 [| 
售 价 : ¥99.28 


美食 加 美酒 3 折 起 包 邮 
快车 号 可 抢 免 单 依 


9.2 ”淘宝 网 技术 架构 演化 


2003 年 ， 人 花 3000 美 金 买 来 的 淘宝 网 站 是 用 PHP 开 发 的 ， 淘 宝 的 工 
旦 师 做 了 简单 的 汉化 处 理 ， 并 对 数据 库 做 了 读 写 分 离 ， 最 早 的 淘宝 网 
架构 如 图 9.5 所 示 。 


应 用 服务 器 1 应 用 服务 器 2 应 用 服务 器 3 


Linux 


图 9.5 ”2003 年 淘宝 网 架构 


像 我 们 见 过 的 绝 大 多 数 中 小 网 站 一 样 ， 当 年 的 淘宝 网 使 用 典型 的 
LinuxL ApacheAMySQLMPHP (LAMP) 架构 。 作 为 一 个 刚刚 起 步 的 
小 网 站 ， 使 用 开源 、 免 费 、 简 单 的 技术 产品 搭建 网 站 是 明智 之 举 ， 可 
谓 一 举 多 得 : 免费 的 技术 降低 网 站 的 成 本 ， 成 熟 的 开源 技术 可 以 从 开 
源 社区 获取 文档 和 技术 支持 ;网 站 发 展 初期 ， 业 务 不 明确 ， 需 求 变化 


多 ， 简 单 的 技术 方案 可 以 快速 响应 需求 变化 ; 简单 的 技术 也 可 以 让 工 
程 师 快速 上 手 ， 缩 短 学 习 周期 ) 退 一 步 ， 如 果 业 务 发 展 不 顺利 ， 及 时 
关闭 网 站 止 损 ， 亦 可 减少 沉没 成 本 ， 促 使 管理 层 和 投资 者 快速 决策 。 


NMA 


的 快速 发 展 ， 电 子 商务 网 站 特有 的 业务 复杂 性 和 PHP 易 开发 、 难 维护 
的 特性 产生 了 难以 调和 的 冲突 ;不断 扩展 的 业务 让 工程 师承 受 着 沉重 
的 负担 ; 不 断 增 加 的 用 户 和 商品 数 又 让 系统 特别 是 存储 系统 不 堪 重 
负 。 总 之 ， 架 构 重 构 势 在 必 行 。2004 年 ， 淘 宝 在 SUN 技 术 顾 问 的 协助 
下 进行 了 一 次 重要 的 重 构 ， 放 弃 了 原来 的 LAMP 架 构 ， 转 而 使 用 Java 
作为 开发 平台 ， 使 用 Oracle 做 后 端 数 据 库 ， 如 图 9.6 所 示 。 


应 用 服务 器 2 应 用 服务 器 3 


Weblogic Weblogic 


应 用 服务 器 1 


Weblogic 


EJB 


EE 
Mik 数据 同步 搜索 引擎 服务 器 集群 
< 


Oracle 数 据 库 


图 9.6 ”2004 年 淘宝 网 架构 


系统 架构 使 用 了 当时 在 企业 应 用 领域 窑 露 头角 的 MVC 框 架 和 
ORM 框 架 ， 分 别 解决 视图 与 业务 逻辑 分 离 的 问题 和 对 象 与 关系 数据 库 
解 耦 的 问题 ， 淘 宝 没 有 使 用 当时 风头 正 劲 的 Struts 和 Hibernate， 而 是 选 
择 了 自己 开发 MVC 框 架 Webx， 而 ORM 框 架 则 选择 了 IBatis。 


当时 淘宝 还 开发 了 另 一 个 重要 产品 Antx， 这 个 针对 Java 平 台 的 、 
扩展 自 Ant 的 项 目 构建 工具 对 于 网 站 项 目 开 发 、 测 试 、 发 布 至 关 重 要 ， 
一 个 非常 重要 的 功能 融 是 管理 配置 项 。 对 于 一 个 Java 开 发 的 大 型 Web 
系统 ， 内 部 通常 会 包含 数 百 个 jar 文 件 ， 每 个 jar 文 件 都 是 一 个 独立 的 模 
块 ， 这 些 模块 由 不 同 团队 开发 ， 实 现 不 同 功 能 ， 最 后 组 成 一 个 完整 的 
系统 。 这 些 模块 通常 也 都 有 自己 的 配置 文件 ， 比 如 数据 库 连 接 模块 需 
要 配置 数据 库 URL、 连 接 池 大 小 等 ， 这 些 配 置 参数 在 开发 环境 、 测 试 
环境 、 生 产 环境 各 不 相同 。Antx 提 供 了 一 个 灵活 管理 这 些 分 散 配 置 项 
的 解决 方案 。 


应 用 服务 器 使 用 Weblogic， 数 据 库 使 用 Oracle， 这 些 产 品 都 需要 昂 
贵 的 授权 使 用 费 。 而 Oracle 又 需要 部 署 在 昂贵 的 IBM 人 小 型 机 和 同样 昂 
贵 的 EMC 存 储 设备 上 。 淘 宝 这 时 候 弃 免费 而 选择 付费 产品 ， 和 建站 初 
选择 免费 一 样 ， 同 样 是 明智 之 举 : 业务 快速 发 展 ， 宝 贵 的 开发 资源 应 
该 投入 到 新 业务 开发 上 ， 而 不 是 解决 这 些 可 以 用 付费 产品 搞定 的 基础 
技术 问题 上 ; 成熟 的 付费 产品 和 售后 支持 令 业 务 和 市 场 没 有 后 顾 之 
忧 ， 可 以 全 力 以 赴 地 拓展 市 场 ， 对 于 一 个 快速 发 展 的 网 站 ， 特 别 是 电 
子 商 务 网 站 而 言 ， 严 重 宕 机 、 重 要 用 户 数 据 丢失 可 能 会 极 大 地 打击 消 
费 者 信心 ， 令 网 站 发 展 平 生 疲 澜 ， 而 这 些 业 界 领先 的 产品 经 过 多 年 的 
洗 练 ， 有 较 强 的 可 用 性 保证 。 


此 后 三 四 年 间 ， 淘 宝 在 Oracle、EMC、IBM 的 护航 下 ， 高 歌 猛 


NW 


自己 的 技术 发 展 之 路 ， 如 图 9.7 所 示 。 


应 用 服务 器 1 应 用 服务 器 2 应 用 服务 器 3 
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Oracle 数 据 库 
图 9.7” ”2006 年 的 淘宝 架构 


放弃 EJB，5 引 入 Spring， 用 免费 的 JBoss 替代 收费 的 Weblogic， 因 为 
Weblogic 并 非 物 有 所 值 ，EJB 对 于 网 站 来 说 也 太 过 笨重 。 淘 宝 后 来 甚至 
用 更 轻 量 级 的 Jetty 替 代 了 JBoss， 对 淘宝 而 言 ， 应 用 服务 器 只 需要 一 个 
Servlet 容 器 ， 越 简单 越 快 越 好 。 在 合适 的 场景 下 使 用 合适 的 产品 ， 而 
不 是 最 好 的 产品 ， 所 谓 小 脚 穿 大 鞋 ， 不 但 跑 不 快 ， 还 可 能 会 摔跤。 


直到 这 时 ， 淘 宝 架 构 和 技术 依然 是 混 然 于 众 的 中 庸 水 平 而 已 ， 没 
有 拖 业 务 的 后 腿 ， 使 用 业界 成 熟 的 方案 和 可 靠 的 技术 ， 没 有 什么 可 指 
责 的 也 没有 什么 可 炫耀 的 。 但 也 就 是 在 这 个 时 候 ， 淘 宝 技术 开始 发 
力 ， 许 多 竟 定 淘宝 坚实 架构 基础 的 产品 和 技术 从 这 个 时 候 开 始 逐 步 酝 
酸 ， 走 向 成 熟 。 目 前 这 些 产 品 多 数 都 已 开源 ， 如 表 9.1 所 示 。 


表 9.1 淘宝 主要 开源 系统 


项 目 名 描 述 
Tair 分 布 式 Key/Value 存储 引擎 ， 分 为 持久 化 和 非 持久 化 两 种 使 用 方式 
TEFS -个 分 布 式 文件 系统 ， 适 用 于 海量 小 文件 存储 
OceanBase 分 布 式 数据 库 系 统 ， 支 持 干 亿 级 别 的 读 写 事务 
TDDL 对 应 用 透明 的 分 库 分 表层 和 具有 众多 特性 的 动态 数据 源 


(资料 来 源 : http://code.taobao.org/) 


随 着 淘宝 技术 的 不 断 发 展 壮大 ， 淘 宝 对 集群 环境 下 分 布 式 高 可 用 
系统 的 架构 设计 技术 越 来 越 得 心 应 手 ，Oracle、IBM、EMC 也 变 得 不 
是 必须 ， 于 是 淘宝 开始 逐步 放弃 使 用 这 些 昂贵 的 设备 和 软件 ， 回 归 到 
开源 的 MySQL 及 NoSQL 系 统 ， 正 如 淘宝 2003 年 建站 之 初 的 选择 。 这 也 
再 一 次 验证 了 辩证 法 关于 事物 发 展 的 否定 之 否定 及 螺旋 式 上 升 的 普遍 
规律 ， 仿 佛 回 到 原点 ， 但 一 切 已 经 完全 不 同 了 。 


9.3 ”小结 


如 果 说 有 什么 神奇 的 力量 促使 淘宝 技术 脱胎 换 骨 ， 化 肾 成 蝶 ， 站 
在 中 国 互联 网 软件 开发 技术 之 匮 华山 论 剑 的 话 ， 笔 者 认为 最 重要 甚至 
唯一 的 驱动 力 融 是 : 不 得 已 。 随 着 业务 的 飞速 发 展 ， 用 尸 、 数 据 、 流 
量 、 业 务 复杂 度 都 呈 指 数 级 增长 ， 飞 速 接近 甚至 突破 Oracle、IBM 这 
些 企业 提供 的 解决 方案 的 有 效 范 围 ， 在 开源 领域 时 有 Google、Yahoo 等 
先驱 在 探索 道路 ， 并 有 一 些 开源 产品 ， 但 是 在 大 规模 集群 实践 上 ， 大 
家 都 在 摸索 ， 淘 宝 必 须 走 自己 的 路 ， 路 上 也 许 有 烛光 照明 ， 但 是 没 
人 指 路 。 


而 有 毕 路 ， 走 过 以 后 ， 再 回头 ， 一 览 众 山 小 ! 


10 OP 


www.wikipedia.org， 这 个 在 2001 年 创建 ， 使 用 Perl CGI 脚本 编写 的 
只 有 一 台 服 务 器 的 网 站 ， 到 2012 年 已 经 成 为 流量 排名 全 球 第 6 的 大 型 网 
站 ， 如 图 10.1 所 示 。 和 www.wikipedia.org 的 流量 在 相同 级 别 的 其 他 大 
型 网 站 ， 如 www.baidu.com、www.yahoo.com， 其 背后 都 是 市 值 数 百 亿 
美金 、 员 工 上 万 的 巨 无 霸 企 业 ， 运 行 网 站 的 服务 器 规模 也 数 以 万 计 。 
而 wikipedia.org 不 过 只 有 区 区 数 百 台 服 务 器 ， 并 仅 由 十 余 名 技术 人 员 维 
护 ， 不 得 不 说 是 一 个 奇迹 。Wikipedia 对 资源 的 利用 ， 对 性 能 的 优化 很 
具有 典型 性 ， 有 许多 值得 学 习 的 地 方 。 


Google 


google.com 

Enables users to search the worlds information, including webpages, images, and videos. Offers... 
More 

会 会 会 会 写 。 Search Analytics w Audience > 


Facebook 
facebook.com 


A social utility that connects people, to keep up with friends, upload photos, share links and ... More 
禽 禽 禽 禽 全 ”Search Analytics p Audience > 


YouTube 
youtube.com 


YouTube is a way to get your videos to the people who matter to you. Upload, tag and share your... 
More 
会 例会 福 祠 Search Analytics p Audience > 


Yahoo! 
yahoo.com 


A major internet portal and service provider offering search results, customizable content cha... More 
禽 会 例会 丛 ”Search Analytics py Audience > 


Baiducom 
baidu.com 


The leading Chinese language Search engine, provides “simple and reliable™ search exp... More 
会 会 会 禄 写 Search Analytics w Audience p 

Wikipedia 

wikipedia.org 

Afree encyclopedia built collaboratively using wiki software. (Creative Commons Attribution-Sh... 
More 

例会 依依 从 Search Analytics ® Audience > 


图 10.1 2012 年 12 月 8 日 Alexa 全 球 网 站 排名 


10.1  _ Wikipedia 网 站 整体 架构 


目 前 Wikpedia 网 站 建 立 在 LAMP 
(LinuxLApacheAMySQLMPHP) 之 上 ， 其 他 基础 技术 组 件 也 全 部 采 
用 免费 的 开源 软件 。 因 为 Wikipedia 是 非 盈 利 的 ， 所 以 尽 可 能 使 用 免费 
的 软件 和 廉价 的 服务 器 ， 这 种 技术 倾向 使 得 技术 团队 不 得 不 量 体 裁 
衣 、 看 米 下 锅 ， 榨 尽 系统 所 有 资源 的 利用 价值 ， 用 最 少 的 资源 成 就 最 
不 可 思议 的 奇迹 ， 最 终 也 让 技术 团队 获得 了 真正 的 成 长 。 


Wikipedia 的 架构 如 图 10.2 所 示 。 


10.2 ”Wikipedia 架构 图 


(图 片 来 源 : http://www.slideshare.net/kapil/wikimediaarchiteciture) 
Wikipedia 架 构 的 主要 组 成 部 分 如 下 。 


GeoDNS : 基于 开源 域名 服务 器 软件 BIND (Berkeley Imternet 
Name Domain) 的 增强 版 本 ， 可 将 域名 解析 到 离 用 户 最 近 的 服务 器 。 


LVS: 基于 Linux 的 开源 负载 均衡 服务 器 。 
Squid: 基于 Linux 的 开源 反 向 代理 服务 器 。 


Lighttpd: 开源 的 应 用 服务 器 ， 较 主流 的 Apache 服 务 器 更 轻 量 、 
更 快速 。 实 践 中 ， 有 许多 网 站 使 用 Lighttpd 作 为 图 片 服 务 器 。 


PHP: 免费 的 Web 应 用 程序 开发 语言 ， 最 流行 的 网 站 建站 语言 。 


Memcached: 无 中 心 高 性 能 的 开源 分 布 式 缓存 系统 ， 稳 定 、 可 
靠 、 历 久 弥 新 ， 是 网 站 分 布 式 缓存 服务 必 备 的 。 


Lucene: 由 Apache 出 品 ，Java 开 发 的 开源 全 文 搜索 引擎 。 


MySQL: 开源 的 关系 数据 库 管 理 系 统 ， 虽 被 Oracle 收 购 ， 但 开源 
社区 将 其 继续 开源 发 展 的 决心 不 动摇 。 


10.2 Wikipedia 性 能 优化 策略 


作为 一 个 百科 服务 类 网 站 ，Wikipedia 主 要 面临 的 挑战 是 如 何 应 对 
来 自 全 球 各 地 的 巨 量 并 发 的 词 条 查询 请 求 。 相 对 其 他 网 站 ，Wikipedia 
的 业务 比较 简单 ， 用 户 操作 大 部 分 是 只 读 的 ， 这 些 前 提 使 Wikipedia 的 
性 能 优化 约束 变 得 简单 ， 可 以 让 技术 团队 将 每 一 种 性 能 优化 手段 都 发 
挥 到 极致 ， 且 业务 束缚 较 少 。 因 此 Wikipedia 的 性 能 优化 比较 有 典型 意 
Ws 


10.2.1 ”Wikipedia 前 端 性 能 优化 


所 谓 网 站 前 端 是 指 应 用 服务 器 (也 就 是 PHP 服 务 器 ) 之 前 的 部 
分 ， 包 括 DNS 服 务 、CDN 服 务 、 反 向 代理 服务 、 静 态 资源 服务 等 ， 如 
图 10.3 所 示 。 对 Wikipedia 而 言 ，80% 以 上 的 用 户 请 求 可 以 通过 前 端 服 
务 返 回 ， 请 求 根本 不 会 到 达 应 用 服务 器 ， 这 也 就 使 得 网 站 最 复杂 、 最 
有 挑战 的 应 用 服务 端 和 存储 端 讨 力 又 减 。 


~ 
| coN F 2 
ke 一 用户 浏 此 器 
地 区 数据 中 心 主 数据 中 心 
ws ) | DS 


下 | 一 数据 同步 
| 


图 10.3 ”Wikipedia 的 前 端 架 构 


Wikipedia 前 端 架 构 的 核心 是 反 向 代理 服务 器 Squid 集 群 ， 大 约 部 署 
有 数 十 台 服 务 器 ， 请 求 通过 LVS 负 载 均衡 地 分 发 到 每 台 Squid 服 务 器 ， 
热点 词 条 被 缓存 在 这 里 ， 大 量 请 求 可 直接 返回 响应 ， 请 求 无 需 发 送 到 
Apache 服 务 器， 减轻 应 用 负载 压力 。Squid 缓 存 不 能 命中 的 请 求 再 通过 
LVS 发 送 到 Apache 应 用 服务 器 集群 ， 如 果 有 词 条 信息 更 新 ， 应 用 服务 
器 使 用 Invalidation Notification 服 务 通知 Squid 缓 存 失 效 ， 重 新 访问 应 用 
服务 器 更 新 词 条 。 


而 在 反 向 代理 Squid 之 前 ， 则 是 被 Wikipedia 技 术 团队 称 为 “圣杯 ”的 
CDN 服 务 ，CDN 服 务 对 于 Wikipedia 性 能 优化 居 功 至 伟 。 因 为 用 户 查询 
的 词 条 大 部 分 集中 在 比重 很 小 的 热点 词 条 上 ， 将 这 些 词 条 内 容 页 面 缓 
存在 CDN 服 务 器 上 ， 而 CDN 服 务 器 又 部 署 在 离 用 户 浏 览 器 最 近 的 地 
方 ， 用 户 请 求 直接 从 CDN 返 回 ， 响 应 速度 非常 快 ， 这 些 请 求 甚至 根本 
不 会 到 达 Wikipedia 数 据 中 心 的 Squid 服 务 器 ， 服 务 器 压力 减 小 ， 节 省 的 
资源 可 以 更 快 地 处 理 其 他 未 被 CDN 缓 存 的 请 求 。 


Wikipedia CDN 缓 存 的 几 条 准则 为 : 


。 内 容 页 面 不 包含 动态 信息 ， 以 免 页 面 内 容 缓存 很 快 失 效 或 者 包含 
过 时 信息 。 

。 每 个 内 容 页 面 有 唯一 的 REST 风 格 的 URL， 以 便 CDN 快 速 查找 并 
避免 重复 缓存 。 

。 在 HIML 响 应 头 写 入 缓存 控制 信息 ， 通 过 应 用 控制 内 容 是 否 缓存 
及 缓存 有 效 期 等 。 


10.2.2”“ Wikipedia 服务 端 性 能 优化 


服务 端 主 要 是 PHP 服 务 器 ， 这 里 是 网 站 业务 逻辑 的 核心 部 分 ， 运 
行 的 模块 都 比较 复杂 至 重 ， 需 要 消耗 较 多 的 资产 ，Wikipedia 将 最 好 的 
服务 器 部 署 在 这 里 《和 数据 库 配置 一 样 的 服务 器 ) ， 从 硬件 上 改善 性 


人 已 
月 Co 


除了 硬件 改善 ，Wikipedia 还 使 用 许多 其 他 开源 组 件 对 应 用 层 进 行 
如 下 优化 。 


。 使 用 APC， 这 是 一 个 PHP 字 节 码 缓存 模块 ， 可 以 加 速 代 码 执行 减 
少 资源 消耗 。 

。 使 用 Imagemagick 进 行 图 片 处 理 和 转化 。 

。 使 用 Tex 进 行文 本 格式 化 ， 特 别 是 将 科学 公式 内 容 转换 成 图 片 格 
Th6 

。 替换 PHP 的 字符 串 查找 函数 strtr () ， 使 用 更 优化 的 算法 重 构 。 


10.2.3 Wikipedia 后 端 性 能 优化 


包括 缓存 、 和 存储 、 数 据 库 等 被 应 用 服务 器 依赖 的 服务 都 可 以 归 类 
为 后 端 服务 。 后 端 服务 通 单 是 一 些 有 状态 的 服务 ， 即 需要 提供 效 据 存 
储 服务 ， 这 些 服 务 大 多 建立 在 网 络 通信 和 磁盘 操作 基础 上 ， 是 性 能 的 
瓶颈 ， 也 是 性 能 优化 的 重 灾区 。 


后 端 优化 最 主要 的 手段 是 使 用 缓存 ， 将 热点 数据 缓存 在 分 布 式 绥 
存 系统 的 内 存 中 ， 加 速 应 用 服务 器 的 数据 读 操 作 速 度 ， 减 轻 存 储 和 数 
据 库 服务 器 的 负载 。Wikipedia 的 缓存 使 用 策略 如 下 : 


。 热点 特别 集中 的 数据 直接 缓存 到 应 用 服务 器 的 本 地 内 存 中 ， 因 为 
要 占用 应 用 服务 器 的 内 存 且 每 台 服 务 器 都 需要 重复 缓存 这 些 数 
据 ， 因 此 这 些 数据 量 很 小 ， 但 是 读 取 频 率 极 高 。 


缓存 数据 的 内 容 尽 量 是 应 用 服务 器 可 以 直接 使 用 的 格式 ， 比 如 

HTML 格 式 ， 以 减少 应 用 服务 器 从 缓存 中 获取 数据 后 解析 构造 数 

据 的 代价 。 

使 用 缓存 服务 器 存储 session 对 象 。 

相 比 数据 库 ，Memcached 的 持久 化 连接 非常 廉价 ， 如 有 需要 就 创 
建 一 个 Memcached 连 接 。 


作为 存储 核心 资产 的 MySQL 数 据 库 ，Wikipedia 也 做 了 如 下 优化 : 


使 用 较 大 的 服务 器 内 存 。 在 Wikipedia 应 用 场景 中 ， 增 加 内 存 比 增 
加 其 他 资产 更 能 改善 MySQL 性 能 。 

使 用 RAID0 磁 盘 阵 列 以 加 速 磁 盘 访 问 ，RAID0 虽 然 加 速 磁 盘 访 
问 ， 但 是 却 降低 了 数据 库 的 持久 可 靠 性 (一 块 盘 坏 了 ， 整 个 数据 
库 的 数据 都 不 完整 了 ) 。 显 然 Wikipedia 认 为 性 能 问题 迫在眉睫 ， 
而 数据 可 靠 性 问题 可 以 通过 其 他 手段 解决 (如 MySQL 主 从 复制 |， 
数据 异步 备份 等 ) 。 

将 数据 库 事务 一 致 性 设置 在 较 低 水 平 ， 加 快 宕 机 恢复 速度 。 

如 果 Master 数 据 库 宕 机 ， 立 即将 应 用 切换 到 Salve 数 据 库 ， 同 时 关 
闭 数据 写 服务 ， 这 意味 着 关闭 词 条 编辑 功能 。Wikipedia 通 过 约束 
业务 获得 更 大 的 技术 方案 选择 余地 ， 很 多 时 候 业 务 后 退 一 小 步 ， 
技术 就 可 以 前 进 一 大 步 。 


11 海量 分 布 式 存储 系统 Doris 的 
高 可 用 架构 设计 分 析 


Doris (https://github.com/itisaid/Doris) 是 一 个 海量 分 布 式 KV 存 储 
系统 ， 其 设计 目标 是 支持 中 等 规模 高 可 用 、 可 伸缩 的 KV 存储 集群 。 跟 
主流 的 NoSQL 系 统 HBase 相 比 (Doris0.1 vs. HBase0.90) ，Doris 具 有 相 
似 的 性 能 和 线性 伸缩 能 力 ， 并 具有 更 好 的 可 用 性 及 更 友好 的 图 形 用 户 
管理 界面 。 


对 于 一 个 数据 存储 系统 而 言 ， 高 可 用 意味 着 两 个 意思 : 


。 高 可 用 的 服务 : 任何 时 候 ， 包 括 宕 机 、 硬 盘 损 坏 、 系 统 升 级 、 停 
机 维护 、 集 群 扩容 等 各 种 情况 ， 都 可 以 对 系统 进行 读 写 访 问 操 
作 。 

。 高 可 靠 的 数据 : 任何 情况 下 ， 数 据 可 靠 存 储 ， 不 丢失 。 


那么 高 可 用 的 架构 设计 也 就 是 在 各 种 软 硬 件 故 障 的 情况 下 ， 系 统 
如 何 保 障 数据 可 靠 存 储 ， 服 务 可 用 。 


11.1 分 布 式 存储 系统 的 高 可 用 架构 


对 一 个 大 规模 集群 的 存储 系统 而 言 ， 服 务 器 宕 机 、 交 换 机 失效 是 
常态 ， 架 构 师 必须 为 这 些 故 障 发 生 时 ， 保 证 系统 依然 可 用 而 进行 系统 
设计 。 在 系统 架构 层面 ， 保 证 高 可 用 的 主要 手段 是 元 余 : 服务 器 热 
备 ， 数 据 多 份 存储 。 使 整个 集群 在 部 分 机 器 故障 的 情况 下 可 以 进行 灵 
活 的 失效 转移 (Failover) ， 保 证 系统 整体 依然 可 用 ， 数 据 持 久 可 靠 。 
Doris 系 统 的 架构 如 图 11.1 所 示 。 


应 用 服务 器 集群 


获取 存 请 集 
群 配 置信 息 


管理 中 心服 务 器 
集群 


健康 心跳 检测 
故障 扩容 管理 


存 峙 服务 器 集群 


图 11.1 ” Doris 的 整体 架构 


系统 整体 上 可 分 为 如 下 三 个 部 分 。 


。 应 用 程序 服务 器 : 它们 是 存储 系统 的 客户 ， 对 系统 发 起 数据 操作 
请 求 。 

数据 存储 服务 器 : 他 们 是 存储 系统 的 核心 ， 负 责 存 储 数据 、 响 应 
应 用 服务 器 的 数据 操作 请 求 。 

管理 中 心服 务 器 : 这 是 一 个 由 两 台 机 器 组 成 的 主 - 主 热 备 的 小 规 
模 服 务 器 集群 ， 主 要 负责 集群 管理 ， 对 数据 存储 集群 进行 健康 心 
跳 检 测 ; 集群 扩容 、 故 障 恢 复 管 理 ; 对 应 用 程序 服务 器 提供 集群 
地 址 配置 信息 服务 等 。 


其 中 数据 存储 服务 器 又 根据 应 用 的 可 用 性 级 别 设置 数据 复制 份 
数 ， 即 每 个 数据 实际 物理 存储 的 副本 数目 ， 副 本 份 数 越 多 ， 可 用 性 级 
别 越 高 ， 当 然 需 要 的 服务 器 也 越 多 。 为 了 便于 管理 和 访问 数据 的 多 个 
副本 ， 将 存储 服务 器 划分 为 多 个 序列 ， 数 据 的 多 个 副本 存储 在 不 同 的 
序列 中 〈 序 列 可 以 理解 为 存储 集群 中 的 子 集群 ) 。 


应 用 服务 器 写 入 数据 时 ， 根 据 集群 配置 和 应 用 可 用 性 级 别 使 用 路 
由 算法 在 每 个 序列 中 计算 得 到 一 人 台 服 务 器 ， 然 后 同时 并 发 写 入 这 些 服 
务 器 中 ; 应 用 服务 器 读 取 数 据 时 ， 只 需要 随机 选择 一 个 序列 ， 根 据 相 
同 路 由 算法 计算 得 到 服务 器 编号 和 地 址 ， 即 可 读 取 。 通 常情 况 下 ， 系 
统 最 少 写 入 的 副本 份 数 是 两 份 ， 如 图 11.2 所 示 。 


应 用 服务 器 CE 存储 服务 器 (序列 1 服务 器 NO .2 (序列 1 服务 器 NO.2) 存储 服务 器 序列 2 服务 器 NO.2 ; 序列 2 服务 器 NO.2 


| 
| 1: 获取 集群 信息 


| 2: 获取 应 用 可 用 级 别 0 


1 3: 路 由 计算 存储 服务 器 0 


本 4: 


CE 


LT 


图 11.2 ”Doris 系 统 调用 时 序 模型 


在 正 单 状态 下 ， 存 储 服 务 器 集群 中 的 服务 器 互 不 感知 ， 不 进行 任 
何 通信 ee 
集群 信息 ， 除 非 集群 信息 发 生变 化 故障、 扩容) ， 否 则 应 用 服务 
不 会 和 管理 中 心服 务 器 通信 。 一 般 而 言 ， 服 务 器 之 间 通 信 越 少 ， 
少 依赖 ， 发 生 故 障 时 互相 影响 就 越 少 ， 集 群 的 可 用 性 惑 越 高 。 


11.2 “不同 故障 情况 下 的 高 可 用 解决 方案 


高 可 用 的 系统 需要 解决 的 是 在 不 同 故 障 情况 下 都 保持 较 高 的 系统 
可 用 性 ， 但 是 不 同 故 障 类 型 齐 来 的 问题 复杂 性 不 同 ， 不 可 能 使 用 一 种 
解决 方案 处 理 所 有 情况 ， 所 以 需要 针对 各 种 故障 提供 具体 解决 方案 。 


11.2.1 分 布 式 存储 系统 的 故障 分 类 


在 讨论 解决 方案 之 前 ， 我 们 先 对 故障 进行 分 类 ， 针 对 不 同 故 障 情 
况 分 别 对 待 。 对 于 一 个 分 布 式 存储 系统 而 言 ， 影 响 系统 整体 可 用 性 的 
故障 可 以 分 成 以 下 三 类 。 


。 瞬时 故障 : 引起 这 类 故障 的 主要 原因 是 网 络 通信 瞬时 中 断 、 服 务 
器 内 存 垃圾 回收 或 后 人 台 线 程 繁 忙 停止 数据 访问 操作 响应 。 其 特点 
是 故障 时 间 短 ， 在 秒 级 甚至 之 秒 级 系统 即 可 自行 恢复 正常 响应 。 
临时 故障 : 引起 这 类 故障 的 主要 原因 是 交换 机 宕 机 、 网 卡 松动 等 
导致 的 网 络 通信 中 断 ; 系统 升级 、 停 机 维护 等 一 般 运 维 活动 引起 
的 服务 关闭 ; 内 存 损坏 、CPU 过 热 等 硬件 原因 导致 的 服务 器 宕 
机 ; 这 类 故障 的 主要 特点 是 需要 人 工 干 预 《更换 硬 件 、 重 启 机 器 
等 ) 才能 恢复 正常 。 通 常 持续 时 间 需 要 几 十 分 钟 甚 至 几 小 时 。 故 
障 时 间 可 分 为 两 个 阶段 : 临时 故障 期 间 ， 临 时 故障 恢复 期 间 。 
永久 故障 : 引起 这 类 故障 的 主要 原因 只 有 一 个 : 硬盘 损坏 ， 数 气 
丢失 。 虽 然 损坏 硬盘 和 损坏 内 存 一 样 ， 可 以 通过 更 换 硬 盘 来 重新 
启动 机 器 ， 但 是 丢失 的 数据 却 永远 找 不 回来 了 ， 因 此 其 处 理 策 略 
也 和 前 面 两 种 故障 完全 不 同 ， 恢 复 系 统 到 正常 状态 也 需要 更 长 的 
时 间 。 故 障 时 间 可 分 为 两 个 阶段 : 永久 故障 期 间 和 永久 故障 恢复 
期 间 。 


11.2.2 ”正常 情况 下 系统 访问 结构 


在 只 使 用 两 份 副本 作为 高 可 用 策略 的 情况 下 ， 系 统 访 问 结构 如 图 
11.3 所 示 。 


| 应 用 程序 服务 器 A | 应 用 程序 服务 器 B 


写 数据 瑟 数 据 。。 随机 选择 一 台 服务 器 读数 据 
存 情 服 务 器 1 存 二 服务 器 2 
‘正常 状态 ) {正常 状态 ) 


11.3 ”正常 情况 下 Doris 访 问 模型 


应 用 程序 在 写 数据 时 ， 需 要 路 由 计算 获得 两 台 不 同 的 服务 器 ， 同 
时 将 数据 写 入 两 台 服 务 器 ， 而 读数 据 时 ， 只 需要 到 这 两 台 服 务 器 上 任 
意 一 台 服 务 器 读 取 即 可 。 


11.2.3 ”瞬时 故障 的 高 可 用 解决 方案 


瞬时 故障 是 一 种 严重 性 较 低 的 故障 ， 一 般 系 统 经 过 较 短 暂 的 时 间 
即 可 自行 恢复 ， 遇 到 瞬时 故障 只 需要 多 次 重 试 ， 就 可 以 重新 连接 到 服 
务 器 ， 正 党 访问 。 如 图 11.4 所 示 。 


应 用 服务 器 存储 服务 器 


通信 超时 ， 不 可 识别 异常 


图 11.4 ”Doris 退 时 故障 解决 方案 


如 果 经 多 次 重 试 后 ， 仍 然 失败 ， 那 么 有 可 能 不 是 瞬时 故障 ， 而 是 
更 严重 的 临时 故障 ， 这 时 需要 执行 临时 故障 处 理 策略 。 


当然 也 有 可 能 是 应 用 服务 器 自己 的 故障 ， 比 如 系统 文件 句柄 用 光 
导致 连接 不 能 建立 寺 ， 这 时 需要 请 求 管理 中 心服 务 器 进行 故障 仲裁 ， 
以 判定 故障 种 类 。 


瞬时 失效 访问 模型 如 图 11.5 所 示 。 


应 用 程序 服务 器 “上 3 存储 服务 器 失效 仲裁 -| 。 ”管理 中 心服 务 器 


2| 访 问 重 试 。 1 访问 失败 
| 


4 存储 服务 器 健康 心跳 检测 、 失 效 仲裁 检测 


Y 


- 存储 服务 器 - 


图 11.5 ”Doris 退 时 失效 访问 模型 


11.2.4 ”临时 故障 的 高 可 用 解决 方案 


临时 故障 要 比 瞬 时 故障 严重 ， 系 统 需要 人 工 干 预 才能 恢复 正常 ， 
在 故障 服务 器 未 能 恢复 正常 前 ， 系 统 也 必须 保证 高 可 用 。 由 于 数据 有 
多 份 副 本 ， 因 此 读数 据 时 只 需要 路 由 选择 正常 服务 的 机 器 即 可 ， 写 数 
据 时 ， 正 常服 务 的 机 器 依然 正常 写 入 ， 发 生 故 障 的 机 器 需要 将 数据 写 
入 到 临时 存储 服务 器 ， 等 待 故 障 服务 器 恢复 正常 后 再 将 临时 服务 器 中 
的 数据 迁移 到 该 机 器 ， 整 个 集群 就 恢复 正常 了 。 如 图 11.6 所 示 。 


应 用 服务 器 存储 服务 器 〈 序列 1 服务 器 NO.2) (故障 )| | 存储 服务 器 (序列 2 服务 器 NO. 2) 临时 服务 器 
| 
| 
| 


1: 读数 据 (只 从 正常 服务 器 读 取 ) 0 


1 2: 写 入 数据 0 


i 


4: 故障 服务 器 恢复 服务 后 ， 从 临时 服务 句 迁 移 故 障 期 间 写 入 的 数据 0 


5: 迁移 完成 ， 恢 复 正常 写 入 0 上 | 
Te: 迁移 完成 ， 恢 复 正常 写 入 0 


RE 


图 11.6 ”Doris 临 时 故障 解决 方案 


其 中 临时 服务 器 是 集群 中 专门 部 署 的 服务 器 (根据 可 用 性 规划 ， 
临时 服务 器 也 可 以 部 署 为 多 台 机 器 的 集群 ) ， 正 常情 况 下 ， 该 服务 器 
会 有 数据 写 入 ， 处 于 空 亲 状态， 只 有 在 临时 失效 的 时 候 ， 才 会 写 入 
数据 。 任 何 时 候 该 服务 器 都 不 会 提供 读 操 作 服 务 。 


临时 故障 发 生 期 间 ， 系 统 访问 模型 如 图 11.7 所 示 。 


| 应 用 程序 服务 器 A ) { 应 用 程序 服务 器 日 | 


_ 写 数据 写 数 据 只 选择 正常 状态 的 存 铺 服 务 器 读数 据 


临时 服务 器 存 请 服务 器 1 存储 服务 器 2 
(正常 状态 ) 《正常 状态 ) 《临时 故障 状态 》 


图 11.7 ”Doris 临 时 故障 访问 模型 


临时 故障 解决 ， 系 统 恢 复 期 间 ，Doris 访 问 模型 如 图 11.8 所 示 。 


| 应 用 程序 服务 器 B | | 应 用 程序 服务 器 A | 


只 选择 正常 状态 的 服务 器 读数 据 “ 写 数据 数据 


临时 服务 器 存 铺 服务 器 1 存 请 服务 器 2 
(正常 状态 ) (正常 状态 ) 《临时 故障 恢复 状态 
\ 、 2 


临时 故障 期 间 写 入 的 萄 据 示 移 到 仿 夏 芍 坟 的 服务 器 


图 11.8 临时 故障 恢复 期 间 Doris 访 问 模型 


临时 故障 期 间 写 入 临时 服务 器 的 数据 全 部 迁移 到 存储 服务 器 2 后 ， 
故障 全 部 恢复 ， 存 储 服务 器 2 恢复 到 正常 状态 ， 系 统 可 按 正常 情况 访 
问 。 


11.2.5 ”永久 故障 的 高 可 用 解决 方案 


永久 故障 是 指 服 务 器 上 的 数据 永 人 丢失， 不 能 恢复 。 由 于 故障 服 
务 器 上 的 数据 永久 丢失 ， 从 临时 服务 器 迁移 数据 就 没有 意义 了 ， 人 必须 
要 从 其 他 序列 中 正常 的 服务 器 中 复制 全 部 数据 才能 恢复 正常 状态 。 


永久 故障 发 生 期 间 ， 由 于 系统 无 法 判断 该 故障 是 临时 故障 还 是 永 
久 故 障 ， 因 此 系统 访问 结构 和 临时 故障 一 样 。 当 系统 出 现 临 时 故障 起 
时 〈 超 过 设 定时 间 临 时 故障 服务 器 仍 没 有 启动 ) 或 者 人 工 确认 为 永久 
故障 时 ， 系 统 局 用 备用 服务 器 蔡 代 原 来 永久 失效 的 服务 器 ， 进 入 永久 
故障 恢复 ， 访 问 模型 如 图 11.9 所 示 。 


| 应 用 程序 服务 器 B 人 应 用 程序 服务 器 A | 
只 选择 正常 状态 的 服务 器 读数 据 “ 写 数据 “数据 _ 
[存储 服 务 器 2 
临时 服务 器 存 傅 服务 器 1 [ 蔡 代 原 永久 失效 的 存 
《正常 状态 》 (正常 状态 ) 者 服务 器 2) 
| (永久 夏 障 恢复 状态 ) | 
删除 临时 失效 期 间 写 入 的 数据 从 正常 服务 器 复制 数据 


图 11.9 ”永久 故障 恢复 期 间 Doris 访 问 模 型 
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秒杀 是 电子 商务 网 站 常见 的 一 种 营销 手段 : 将 少量 商品 (通常 只 
有 一 件 ) 以 极 低 的 价格 ， 在 特定 的 时 间 点 开始 出 售 。 比 如 一 元 钱 的 手 
机 ， 五 元 钱 的 电脑 ， 十 元 钱 的 汽车 等 。 因 为 商品 价格 诱 人 ， 而 且 数 量 
有 限 ， 所 以 很 多 人 趋 之 若 爸 ， 在 秒杀 活动 开始 前 涌 入 网 站 ， 等 到 秒杀 
活动 开始 的 一 瞬间 ， 点 下 购买 按钮 (在 此 之 前 购买 按钮 为 灰色 ， 不 可 
以 点 击 ) ， 抢 购 商 品 。 这 些 丙 品 因为 在 活动 开始 的 一 秒 内 就 被 卖 光 
了 ， 所 以 被 称 作 秒 杀 。 


网 站 通过 这 种 营销 手段 ， 制 造 某 种 背 动 效应 ， 从 而 达到 网 站 推广 
的 目的 。 而 最 终 能 够 被 乎 运 之 神 眷顾 ， 秒 到 商品 的 只 有 一 两 个 人 而 
已 。 很 多 电子 商务 网 站 已 经 把 秒杀 活动 常态 化 了 ， 经 常 性 地 举行 秒杀 
活动 。 


秒杀 虽然 对 网 站 推广 有 很 多 好 处 ， 也 能 给 消费 者 带 来 利益 《虽然 
是 很 少 的 几 个 人 ) ， 但 是 对 网 站 技术 却 是 极 大 的 挑战 : 网 站 是 为 正常 
运营 设计 的 ， 而 秒杀 活动 带 来 的 并 发 访问 用 户 却 是 平时 的 数 百 倍 甚 至 
上 千 倍 。 网 站 如 果 为 秒杀 时 的 最 高 并 发 访问 量 进行 设计 部 署 ， 就 需要 
比 正常 运营 多 得 多 的 服务 器 ， 而 这 些 服务 器 在 绝 大 部 分 时 候 都 是 用 不 
着 的 ， 浪 费 惊 人 。 所 以 网 站 的 秒杀 业务 不 能 使 用 正常 的 网 站 业务 流 
程 ， 也 不 能 和 正常 的 网 站 交易 业务 共用 服务 器 ， 必 须 设计 部 署 专 门 的 
秒杀 系统 ， 进 行 专门 应 对 。 


12.1 ”秒杀 活动 的 技术 挑战 


假设 某 网 站 秒杀 活动 只 推出 一 件 商 品 ， 预 计 会 吸引 1 万 人 参加 活 
动 ， 也 就 是 说 最 大 并 发 请 求 数 是 10,000， 秒 杀 系 统 需要 面 对 的 技术 挑 
战 有 如 下 几 点 。 


1。 对 现 有 网 站 业务 造成 冲击 

秒杀 活动 只 是 网 站 营销 的 一 个 附加 活动 ， 这 个 活动 具有 时 间 短 ， 
并 发 访问 量 大 的 特点 ， 如 果 和 网 站 原 有 应 用 部 署 在 一 起 ， 必 人 然 会 对 现 
有 业务 造成 冲击 ， 稍 有 不 愤 可 能 导致 整个 网 站 瘫痪 。 

2。. 高 并 发 下 的 应 用 、 数 据 库 负载 

用 户 在 秒杀 开始 前 ， 通 过 不 停 刷 新 浏览 器 页 面 以 保证 不 会 错过 秒 
杀 ， 这 些 请 求 如 果 按 照 一 般 的 网 站 应 用 架构 ， 访 问 应 用 服务 器 、 连 接 
数据 库 ， 会 对 应 用 服务 器 和 数据 库 服务 器 造成 极 大 的 负载 压力 。 

3。 突 然 增加 的 网 络 及 服务 器 带宽 

假设 商品 页 面 大 小 200K (主要 是 商品 图 片 大 小 ) ， 那 么 需要 的 网 
络 和 服务 器 带宽 是 2G (200Kx10,000) ， 这 些 网 络 带宽 是 因为 秒杀 活 


动 新 增 的 ， 超 过 网 站 平时 使 用 的 带宽 。 


4。 直 接 下 单 


秒杀 的 游戏 规则 是 到 了 秒杀 时 间 才 能 开始 对 商品 下 单 购买 ， 在 此 
时 间 点 之 前 ， 只 能 浏览 商品 信息 ， 不 能 下 单 。 而 下 单 页 面 也 是 一 个 普 
通 的 URL， 如 果 得 到 这 个 URL， 不 用 等 到 秒杀 开始 就 可 以 下 单 了 。 


12.2 ”秒杀 系统 的 应 对 策略 


为 了 应 对 上 述 挑 战 ， 秒 杀 系 统 的 应 对 策略 有 如 下 几 点 。 
1。 秒杀 系统 独立 部 署 


为 了 避免 因为 秒杀 活动 的 高 并 发 访问 而 拖 垮 整个 网 站 ， 使 整个 网 
站 不 必 面 对 蜂拥 而 来 的 用 户 访 问 ， 可 将 秒杀 系统 独立 部 署 ， 如 果 需 
要 ， 还 可 以 使 用 独立 的 域名 ， 使 其 与 网 站 完全 隔离 ， 即 使 秒杀 系统 月 
并 了 ， 也 不 会 对 网 站 造成 任何 影响 。 


2. 秒杀 商品 页 面 静态 化 


重新 设计 秒杀 商品 页 面 ， 不 使 用 网 站 原来 的 商品 详情 页 面 ， 页 面 
内 容 静 态 化 : 将 商品 描述 、 商 品 参数 、 成 区 记 录 和 用 户 评价 全 部 写 入 
一 个 静态 页 面 ， 用 户 请 求 不 需要 经 过 应 用 服务 器 的 业务 逻辑 处 理 ， 也 
不 需要 访问 数据 库 。 所 以 秒杀 商品 服务 不 需要 部 署 动态 的 Web 服 务 器 
和 数据 库 服务 器 。 


3。 租借 秒杀 活动 网 络 带宽 

因为 秒杀 新 增 的 网 络 带宽 ， 必 须 和 运营 商 重 新 购买 或 者 租借 。 为 
了 减轻 网 站 服务 器 的 压力 ， 需 要 将 秒杀 商品 页 面 缓 存在 CDN， 同 样 需 
要 和 CDN 服 务 商 临 时 租借 新 增 的 出 口 带 宽 。 


4。 动态 生成 随机 下 单 页 面 URL 


为 了 避免 用 户 直 接 访问 下 单 页 面 URL， 需 要 将 该 URL 动 态 化 ， 即 
使 秒杀 系统 的 开发 者 也 无 法 在 秒杀 开始 前 访问 下 单 页 面 的 URL。 办 法 
是 在 下 单 页 面 URL 加 入 由 服务 器 端 生成 的 随机 数 作 为 参 效 ， 在 秒杀 开 
始 的 时 候 才 能 得 到 。 


12.3 ”秒杀 系统 架构 设计 


秒杀 系统 为 秒杀 而 设计 ， 不 同 于 一 般 的 网 购 行 为 ， 参 与 秒杀 活动 
的 用 户 更 关心 地 是 如 何 能 快速 刷新 商品 页 面 ， 在 秒杀 开始 的 时 候 抢 先 
进入 下 单 页 面 ， 而 不 是 商品 详情 等 用 户 体验 细节 ， 因 此 秒杀 系统 的 页 
面 设 计 应 尽 可 能 简单 。 如 图 12.1 所 示 。 


秒杀 商品 描述 


图 12.1 秒杀 商品 页 面 


商品 页 面 中 的 购买 按钮 只 有 在 秒杀 活动 开始 的 时 候 才 变 亮 ， 在 此 
之 前 及 秒杀 商品 卖 出 后 ， 该 按钮 都 是 灰色 的 ， 不 可 以 点 击 。 


下 单 表 单 也 尽 可 能 简单 ， 购 买 数 量 只 能 是 一 个 且 不 可 以 修改 ， 运 
货 地 址 和 付款 方式 都 使 用 用 户 默认 设置 ， 没 有 默认 也 可 以 不 填 ， 人 允许 
等 订单 提交 后 修改 ; 只 有 第 一 个 提交 的 订单 发 送 给 网 站 的 订单 子 系 
统 ， 其 余 用 户 提交 订单 后 只 能 看 到 秒杀 结束 页 面 ， 如 图 12.2 所 示 。 


秒杀 下 单 


订单 表单 


图 12.2 ”秒杀 下 单 页 面 


除了 上 面 提 到 的 秒杀 系统 的 技术 挑战 及 应 对 策略 ， 还 有 一 些 其 他 
问题 需要 处 理 。 


1. 如 何 控 制 秒杀 商品 页 面 购 买 按 钮 的 点 亮 


购买 按钮 只 有 在 秒杀 活动 开始 的 时 候 才 能 点 亮 ， 在 此 之 前 是 灰色 
的 。 如 果 该 页 面 是 动态 生成 的 ， 当 然 可 以 在 服务 器 端 构造 响应 页 面 输 
出 ， 控 制 该 按钮 是 灰色 还 是 点 之 ， 但 是 为 了 减轻 服务 器 端 负载 压力 ， 
更 好 地 利用 CDN、 反 向 代理 等 性 能 优化 手段 ， 该 页 面 被 设计 为 静态 页 
面 ， 绥 存在 CDN、 反 向 代理 服务 器 上 ， 甚 至 用 户 浏 览 嚣 上。 秒杀 开始 
时 ， 用 户 刷 新 页 面 ， 请 求 根 本 不 会 到 达 应 用 服务 器 。 


解决 办 法 是 使 用 JavaScript 脚 本 控制 ， 在 秒杀 商品 静态 页 面 中 加 入 
一 个 JavaScript 文 件 引 用 ， 该 JavaScript 文 件 中 加 入 秒杀 是 否 开始 的 标志 
和 下 单 页 面 URL 的 随机 数 参数 ， 当 秒杀 开始 的 时 候 生 成 一 个 新 的 
JavaScript 文 件 并 被 用 户 浏览 器 加 载 ， 控 制 秒杀 商品 页 面 的 展示 。 这 个 


JavaScript 文 件 使 用 随机 版 本 号 ， 并 且 不 被 浏览 器 、CDN 和 上 反 向 代理 服 
务 器 缓存 。 如 图 12.3 所 示 。 


刷新 秒杀 商品 页 面 
CDN 服 务 器 
每 次 刷新 秒杀 商品 页 面 

都 加 载 一 次 JavaScript 六 件 
网 站 机 房 秒杀 服务 器 集群 


刷新 秘 杀 商品 页 面 


- > ee 
旺 轧 秒杀 开始 前 生成 新 的 JavaScript 文 件 加 
? 9 并 推送 到 JavaScript 服 务 器 9 
种 杀 商 品 服务 器 集群 JavaScript 服 务 器 集群 定 用 
《10 台 Apache 服 务 器 》 《5 台 Lighttp 服 务 器 ) 罗 全 全 有人 有 


图 12.3 ”秒杀 商品 点 亮 过 程 


这 个 JavaScript 文 件 非常 小 ， 即 使 每 次 浏览 器 刷新 都 访问 JavaScript 
文件 服务 器 也 不 会 对 服务 器 集群 和 网 络 带宽 造成 太 大 压力 。 


2. 如 何 只 允许 第 一 个 提交 的 订单 被 发 送 到 订单 子 系统 


由 于 最 终 能 够 成 功 秒杀 到 商品 的 用 户 只 有 一 个 ， 因 此 需要 在 用 户 
提交 订单 时 ， 检 查 是 否 已 经 有 订单 提交 。 事 实 上 ， 由 于 最 终 能 够 成 功 
提交 订单 的 用 户 只 有 一 个 ， 为 了 减轻 下 单 页 面 服务 器 的 负载 压力 ， 可 
以 控制 进入 下 单 页 面 的 入 口 ， 只 有 少数 用 户 能 进入 下 单 页 面 ， 其 他 用 
户 直 接 进 入 秒杀 结束 页 面 。 假 设 下 单 服务 器 集群 有 10 台 服务 器 ， 每 台 
服务 器 只 接受 最 多 10 个 下 单 请 求 ， 如 图 12.4 所 示 。 


活动 开始 
点 击 购买 按钮 
用 户 填写 订单 
点 击 提交 按钮 


请 求 帮 送 至 
下 单 服 务 器 


已 超过 秒杀 


品 总 数 


显示 秒杀 活动 
已 结束 页 面 


未 超过 秒杀 


品 总 数 


提交 到 订单 子 
系统 


图 12.4 ”秒杀 下 单 流程 


秒杀 系统 的 整体 架构 如 图 12.5 所 示 。 


每 次 刷新 秒杀 商品 页 面 
pg 加载 一 次 JavaScript 文 件 


网 站 机 房 秒杀 服务 器 集群 


Ee 
秒杀 开始 前 生成 新 的 JavaScript 文 件 
并 推送 到 JavaScript 服 务 器 上 ] 


JavaScript 服 务 器 集群 定时 任务 服务 器 
= 《5 台 Lighttp 服 务 器 ) 百 [1 台 linux 服 务 器 ) 
种 杀 商 品 服务 器 集群 更 新 检查 全 局 计数 器 
(10 台 Apache 服 务 器 9 9 


下 单 服务 内 集群 全 局 计数 器 服务 器 
{10 台 Jetty 服 务 器 ) (1 台 Memached 服 务 器 


提交 订单 


网 站 机 房 业 务 服 务 器 集群 


间 


订单 处 理子 系统 


图 12.5 “秒杀 系统 的 整体 架构 


12.4 小结 


秒杀 是 对 网 站 架构 的 极 大 考验 ， 在 难以 预计 和 控制 的 高 并 发 访问 
的 冲击 下 ， 稍 有 不 愤 ， 系 统 就 会 被 用 户 秒 杀 ， 导 致 整个 系统 宕 机 ， 活 
动 失败 ， 构 成 重大 事故 。 因 此 在 遵循 秒杀 活动 游戏 规则 的 基础 上 ， 为 
了 保证 系统 的 安全 ， 保 持 适度 的 公平 公正 即 可 。 即 使 系统 出 了 故障 ， 
也 不 应 该 给 用 户 显示 出 错 页 面 ， 而 是 显示 秒杀 活动 结束 页 面 ， 避 人 免 不 
必要 的 困扰 。 除 了 上 面 提 到 的 一 些 针 对 秒杀 活动 进行 的 架构 设计 ， 在 
本 书 第 10 章 中 提 到 的 许多 性 能 优化 设计 都 可 以 用 于 秒杀 系统 的 优化 。 


13 ”大 型 网 站 典型 故障 案例 分 析 


先 讲 一 个 小 故事 。 有 一 次 ， 笔 者 和 几 个 网 站 架构 师 讨 论 问题 ， 期 
间 ， 一 位 架构 师 被 他 们 部 门 总 监 叫 去 面试 一 位 应 聘 者 。 结 果 过 了 十 几 
分 钟 ， 这 位 架构 师 就 回来 了 ， 我 们 都 很 奇怪 : 怎么 这 么 快 ? 他 笑 道 : 
“这 位 老兄 ， 工 作 十 几 年 ， 什 么 都 不 会 ， 没 什么 好 问 的 ”。 我 们 问 他 都 
问 了 什么 问题 ， 结 果 都 是 一 些 如 果 没 有 经 历 过 ， 融 永远 不 会 想到 的 问 
题 ， 而 这 些 问 题 只 要 在 大 型 网 站 技术 一 线 采 上 两 三 年 ， 就 一 定 会 碰 


到 。 


一 位 网 站 资深 架构 师 曾经 说 过 : 在 互联 网 公司 采 一 年 ， 相 当 于 在 
传统 软件 公司 呆 三 年 。 他 的 意思 大 概 是 在 互联 网 公司 一 年 遇 到 的 问题 
比 传统 软件 公司 三 年 遇 到 的 问题 还 多 。 而 且 随 着 网 站 业务 的 快速 发 
展 ， 问 题 也 层出不穷 ， 每 年 遇 到 的 问题 都 不 同 。 遇 到 问题 ， 解 决 问 
题 ， 经 历 了 这 个 过 程 ， 技 术 才 能 升华 ， 人 和 技术 才能 融 为 一 体 ， 才 知 
道 什么 技术 是 真正 有 用 的 ， 什 么 技术 是 花 拳 乡 腿 。 


大 型 网 站 的 技术 本 质 都 很 简单 ， 没 有 很 花哨 的 东西 ， 掌 握 起 来 也 
不 难 。 大 型 网 站 的 架构 师 最 有 价值 的 地 方 不 在 于 他 们 掌握 了 多 少 技 
术 ， 而 在 于 他 们 经 历 过 多 少 故 障 。 每 一 次 故障 都 会 给 公司 融 来 难以 估 
计 的 利益 损失 ， 所 以 培养 一 个 网 站 架构 师 的 成 本 不 单 要 看 付 了 他 多 少 
新 水 ， 给 了 他 多 少 股 票 ， 还 要 看 为 他 引起 的 故障 买 了 多 少 次 单 。 


这 里 列举 一 些 网 站 的 典型 故障 ， 我 们 会 发 现 ， 在 高 并 发 和 海量 数 
据 的 情况 下 ， 很 多 一 般 情况 下 不 是 问题 的 问题 都 会 涌现 出 来 。 


13.1 写 日 志 也 会 引发 故障 


故障 现象 : 某 应 用 服务 器 集群 发 布 后 不 久 就 出 现 多 人 台 服 务 器 相继 
报警 ， 硬 盘 可 用 空间 低 于 警戒 值 ， 并 且 很 快 有 服务 器 宕 机 。 登 录 到 线 
上 服务 器 ， 发 现 log 文 件 夹 里 的 文件 迅速 增加 ， 不 断 消耗 磁盘 空间 。 


原因 分 析 : 这 是 一 个 普通 的 应 用 服务 器 集群 ， 不 需要 存储 数据 ， 
因此 服务 器 里 配置 的 是 一 块 100GB 的 小 硬盘 ， 安 装 完 操作 系统 、Web 
服务 器 、Java 虚 拟 机 、 应 用 程序 后 ， 空 闪 空 间 只 有 几 十 GB 了 ， 正 常情 
况 下 这 些 磁盘 空间 足够 了 ， 但 是 该 应 用 的 开发 人 员 将 log 输 出 的 level 全 
局 配置 为 Debug。 这 样 一 次 简单 的 Web 请 求 就 会 产生 大 量 的 log 文 件 输 
出 ， 在 高 并 发 的 用 户 请 求 下 ， 很 快 就 消耗 完 不 多 的 磁盘 空间 。 


经 验 教训 : 


。 应 用 程序 自己 的 日 志 输 出 配置 和 第 三 方 组 件 日 志 输 出 要 分 别 配 
置 。 

。 检 查 log 配 置 文件 ,日 志 输 出 级 别 至 少 为 Wam， 并 且 检 查 log 输 出 
代码 调用 ， 调 用 级 别 要 符合 其 真实 日 志 级 别 。 

。 有些 开源 的 第 三 方 组 件 也 会 不 恰当 地 输出 太 多 的 Error 日 志 ， 需 要 
关闭 这 些 第 三 方 库 的 日 志 输 出 ， 至 于 哪些 第 三 方 库 有 问题 ， 只 
在 遇 到 问题 时 才 知道 。 


13.2 ”高 并 发 访问 数据 库 引发 的 故障 


故障 现象 : 某 应 用 发 布 后 ， 数 据 库 Load 居 高 不 下 ， 远 超过 正常 水 
平 ， 持 续 报警 。 


原因 分 析 : 检查 数据 库 ， 发 现 报 警 是 因为 某 条 SQL5 引 起 的 ， 这 条 
SQL 是 一 条 简单 的 有 索引 的 数据 查询 ， 不 应 该 引发 报警 。 继 续 检 查 ， 
发 现 这 条 SQL 执行 频率 非常 高 ， 远 远 超过 正 单 水平。 追查 这 条 SQL， 
发 现 被 网 站 首页 应 用 调用 ， 首 页 是 被 访问 最 频繁 的 网 页 ， 这 条 SQL 被 
首页 调用 ， 也 融 被 频繁 执 行 了 。 


经 验 教 训 : 


。 首页 不 应 该 访问 数据 库 ， 首 页 需要 的 数据 可 以 从 缓存 服务 器 或 者 
搜索 5 引擎 服务 器 获取 。 
。 首页 最 好 是 静态 的 。 


13.3 ”高 并 发 情况 下 锁 引 发 的 故障 


故障 现象 : 某 应 用 服务 器 不 定时 地 因为 响应 超时 而 报警 ， 但 是 很 
快 又 超时 解除 ， 恢 复 正 常 ， 如 此 反复 ， 让 运 维和 人 员 非 常 苦恼 。 


原因 分 析 : 程序 中 某 个 单 例 对 象 (singleton object) 中 多 处 使 用 
了 synchronized (this) ， 由 于 this 对 象 只 有 一 个 ， 所 有 的 并 发 请 求 都 要 
排队 获得 这 唯一 的 一 把 锁 。 一 般 情 况 下 ， 都 是 一 些 简 单 操 作 ， 获 得 
锁 ， 迅 速 完 成 操作 ， 释 放 锁 ， 不 会 引起 线程 排队 。 但 是 某 个 需要 远程 
调用 的 操作 也 被 加 了 synchronized (this) ， 这 个 操作 只 是 偶尔 会 被 执 
行 ， 但 是 每 次 执行 都 需要 较 长 的 时 间 才 能 完成 ， 这 段 时 间 锁 被 占用 ， 
所 有 的 用 户 线程 都 要 等 待 ， 响 应 超时 ， 这 个 操作 执行 完 后 释放 锁 ， 其 
他 线程 迅速 执行 ， 超 时 解除 。 


经 验 教训 : 
。 使 用 锁 操 作 要 着 慎 。 


13.4 缓存 引发 的 故障 


故障 现象 : 没有 新 应 用 发 布 ， 但 是 数据 库 服务 器 突然 Load 问 升 ， 
并 很 快 失去 响应 。DBA 将 数据 库 访 问 切换 到 备 机 ，Load 也 很 快 飙升 ， 
并 失去 响应 。 最 终 引 发 网 站 全 部 瘫痪 。 


原因 分 析 : ee 
服务 器 配置 和 管理 级 别 都 比 其 他 服务 器 要 低 一 些 。 人 和 人们 都 认为 缓存 是 
改善 性 能 的 手段 ， 丢 失 一 些 缓存 也 没什么 问题 ， 有 时 候 关闭 一 两 全 组 
存 服务 器 也 确实 对 应 用 没有 明显 影响 ， 所 以 长 期 疏 于 管理 缓存 服务 
器 。 结 果 这 次 一 个 缺乏 经 验 的 工程 师 关 闭 了 缓存 服务 器 集群 中 全 部 的 
十 几 台 Memcached 服 务 器 ， 导 致 了 网 站 全 部 瘫痪 的 重大 事故 。 


经 验 教 训 : 


。 当 缓 存 已 经 不 仅仅 是 改善 性 能 ， 而 是 成 为 网 站 染 构 不 可 或 缺 的 一 
部 分 时 ， 对 缓存 的 管理 就 需要 提高 到 和 其 他 服务 器 一 样 的 级 别 。 


13.5 ”应 用 启动 不 同步 引发 的 故障 
故障 现象 : 某 应 用 发 布 后 ， 服 务 器 立即 崩溃 。 


原因 分 析 : 应 用 程序 web 环境 使 用 ApacheAJBoss 的 模式 ， 用 户 请 
求 通过 Apache 转 发 JBoss。 在 发 布 时 ，Apache 和 JBoss 同时 局 动 ， 由 于 
JBoss 启动 时 需要 加 载 很 多 应 用 并 初始 化 ， 人 花费 时 间 较 长 ， 结 果 JBoss 
还 没有 完全 启动 ，Apache 就 已 经 启动 完毕 开始 接收 用 户 请 求 ， 大 量 请 
求 阻 塞 在 JBoss 进程 中 ， 最 终 导致 了 oss 朋 溃 。 除 了 这 种 Apache 和 JBoss 
局 动 不 同 步 的 情况 ， 网 站 还 有 很 多 类 似 的 场景 ， 都 需要 后 台 服 务 准 备 
好 ， 前 台 应 用 才能 启动 ， 否 则 就 会 导致 故障 。 这 种 情况 被 内 部 人 戏称 
作 “ 寻 娘 们 还 没 穿 好 衣服 ， 老 钨 就 开门 迎 客 了 ”。 

经 验 教训 : 

。 老 移 开 门 前 要 检查 下 姑娘 们 是 否 穿 好 了 衣服 。 就 本 例 来 说 ， 在 应 

用 程序 中 加 入 一 个 特定 的 动态 页 面 (比如 只 返回 OK 两 个 字母 ) ， 


启动 脚本 先 启 动 JBoss， 然 后 在 脚本 中 不 断 用 curl 命 令 访 问 这 个 特 
定 页 面 ， 直 到 收 到 OK， 才 启动 Apache。 


13.6 ”大 文件 读 写 独占 磁盘 引发 的 故障 


故障 现象 ; 某 应 用 主要 功能 是 管理 用 户 图 片 ， 接 到 部 分 用 户 投 
诉 ， 表 示 上 传 图 片 非 党 慢 ， 原 来 只 需要 一 两 秒 ， 现 在 需要 几 十 秒 ， 有 
时 等 半天 结果 浏览 器 显示 服务 器 超时 。 


原因 分 析 : 图 片 需要 使 用 存储 ， 最 有 可 能 出 错 的 地 方 是 存储 服务 
器 。 检 查 存 储 服务 器 ， 发 现 大 部 分 文件 只 有 几 百 KB， 而 有 几 个 文件 非 
单 大 ， 有 数 百 兆 ， 读 写 这 些 大 文件 一 次 需要 几 十 秒 ， 这 段 时 间 ， 磁 盘 
基本 被 这 个 文件 操作 独占 ， 导 臻 其 他 用 户 的 文件 操作 缓慢 。 


经 验 教 训 : 


。 存储 的 使 用 需要 根据 不 同文 件 类 型 和 用 途 进行 管理 ， 图 片 都 是 小 
文件 ， 应 该 使 用 专用 的 存储 服务 器 ， 不 能 和 大 文件 共用 存储 。 批 
处 理 用 的 大 文件 可 以 使 用 其 他 类 型 的 分 布 式 文件 系统 。 


13.7 ”混用 生产 环境 引发 的 故障 


故障 现象 : 监控 发 现 某 个 时 段 内 ， 某 些 应 用 突然 变 慢 ， 内 部 网 络 
访问 延迟 非常 厉害 。 


原因 分 析 : 检查 发 现 ， 该 时 段 内 网 卡 流量 也 下 降 ， 但 是 没有 找到 
原因 。 过 了 一 阵子 才 知 道 ， 原 来 有 工程 师 在 线 上 生产 环境 进行 性 能 压 
力 测试 ， 占 用 了 大 部 分 交换 机 带宽 。 


经 验 教训 : 
。 访问 线 上 生产 环境 要 规范 ， 不 小 心 就 会 导致 大 事故 。 


网 站 数据 库 有 专门 的 DBA 维 护 ， 如 果 发 现 数 据 库存 在 错误 记录 ， 
需要 进行 数据 订正 ， 必 须 走 数据 订正 流程 ， 申 请 DBA 协 助 。 于 是 就 有 
工程 师 为 避免 麻烦 ， 直 接 写 一 段 数据 库 更 新 操作 的 代码 ， 悄 悄 放 到 生 
产 环境 应 用 服务 器 上 执行 ， 神 不 知 鬼 不 觉 地 订正 了 数据 。 但 是 如 果 不 
小 心 写 错 了 SQL， 后 果 可 想 而 知 。 


13.8 “不 规范 的 流程 引发 的 故障 


故障 现象 : 某 应 用 发 布 后 ， 数 据 库 Load 迅 速 朵 升 ， 超 过 报警 值 ， 
回 滚 发 布 后 报警 消除 。 


原因 分 析 : 发 现 该 应 用 发 布 后 出 现 大 量 数据 库 读 操作 ， 而 这 些 数 
据 本 来 应 该 从 分 布 式 缓存 读 取 。 检 查 缓存 ， 发 现 数据 已 经 被 缓存 了 。 
检查 代码 ， 发 现 访问 缓存 的 那 行 代码 被 注释 掉 了 。 原 来 工程 师 在 开发 
的 时 候 ， 为 了 测试 方便 ， 特 意 注释 掉 读 取 缓 存 的 代码 ， 结 果 开 发 完成 
百 未 记 把 注释 去 掉 ， 直 接 提交 到 代码 库 被 发 布 到 线 上 环境 。 


经 验 教 训 : 
。 代码 提交 前 使 用 diff 命 令 进行 代码 比较 ， 确 认 没 有 提交 不 该 提交 的 
代码 。 


。 加 强 code review， 代 码 在 正式 提交 前 必须 被 至 少 一 个 其 他 工程 师 
做 过 code review， 并 且 共 同 承 担 因 代 码 引 起 的 故障 责任 。 


13.9 不 好 的 编程 习惯 引发 的 故障 


故障 现象 : 某 应 用 更 新 某 功能 后 ， 有 人 少量 用 户 投诉 无 法 正常 访问 
该 功能 ， 一 点 击 就 显示 出 错 信 息 。 


原因 分 析 : 分 析 这 些 用 户 ， 都 是 第 一 次 使 用 该 功能 ， 检 查 代码 ， 
发 现 程序 根据 历史 使 用 记录 构造 一 个 对 象 ， 如 果 该 对 象 为 null， 束 会 


导致 NullPointExceptiono 
经 验 教训 : 


。 程序 在 处 理 一 个 输入 的 对 象 时 ， 如 果 不 能 明确 该 对 象 是 否 为 空 ， 
必须 做 空 指针 判断 。 

。 程序 在 调用 其 他 方法 时 ， 输 入 的 对 象 尽 量 保证 不 是 null， 必 要 时 
构造 空 对 象 《使 用 空 对 象 模式 ) 。 


13.10 “小 结 


有 位 软件 技术 前 辈 曾 经 说 过 “软件 设计 有 两 种 风格 ， 一 种 是 将 软件 
设计 得 很 复杂 ， 以 使 其 缺陷 没 那么 明显 ; 一 种 是 将 软件 设计 得 很 简 
单 ， 以 使 其 没有 明显 的 缺陷 ”。 就 笔者 观察 ， 这 两 种 风格 的 软件 工程 师 
都 大 有 人 在 ， 只 是 在 互联 网 公司 ， 后 一 种 更 多 一 些 ， 因 为 即使 是 不 明 
显 的 缺陷 在 网 站 的 快速 发 展 冲 击 下 ， 也 会 很 快 凸显 出 来 ， 令 其 "作者 ” 
疲 于 应 对 ， 狠 狐 不 堪 。 吃 一 次 亏 ， 学 一 次 乖 ， 以 后 设计 软件 时 就 会 设 
计 得 简单 些 ， 如 果 问 题 能 够 很 快 被 发 现 ， 要 解决 也 相对 容易 。 


第 4 篇 ”架构 师 


14 架构 师 领 导 艺 术 


有 一 次 ， 笔 者 以 架构 师 的 角色 参与 某 个 软件 产品 的 开发 ， 产 品 经 
过 一 年 多 的 发 展 ， 已 经 发 布 了 2.0 版 本 ， 并 在 一 些 企业 用 户 中 成 功 实 
施 。 项 目 后 期 ， 由 于 产品 整体 架构 设计 比较 合理 ， 各 个 功能 模块 的 扩 
展 性 良好 ， 架 构 师 基本 没有 什么 事情 可 做 ， 加 上 一 些 其 他 因素 ， 笔 者 
打算 苹 职 。 


但 是 当 跟 项 目 组 成 员 宣布 辞职 的 时 候 ， 大 家 很 吃惊 ， 纷 纷 表 示 挽 
留 “ 你 怎么 可 以 走 呢 ， 你 走 了 ， 我 们 坊 么 办 呢 ? ” 


我 说 “其 实 你 们 已 经 不 需要 我 了 ，2.0 版 本 新 的 功能 染 构 都 是 你 们 
目 己 设计 的 ， 最 近 两 个 月 技术 讨论 会 上 ， 我 甚至 都 不 发 言 了 ， 你 们 不 
是 做 的 一 样 很 好 ? ” 


但 还 是 有 人 很 失望 地 说 “你 在 ， 我 们 融 有 了 主心骨 ， 你 不 说 话 就 是 
表示 赞成 我 们 的 设计 ， 我 们 才 敢 这 样 搞 ， 你 走 了 ， 我 们 怎么 办 呢 ? ” 


架构 师 是 软件 开发 组 织 中 一 个 比较 特殊 的 角色 ， 除 了 架构 设计 ， 
软件 开发 等 技术 类 工作 ， 通 党 还 需要 承担 一 些 管理 职能 : 规划 产品 路 
线 、 估 算 人 力 资源 和 时 间 资 源 、 安 排 人 员 职 责 分 工 ， 确 定 计划 里 程 碑 
点 、 指 导 工 程 师 工 作 、 过 程 风险 评估 与 控制 等 。 这 些 管理 事务 需要 对 


产品 技术 架构 、 功 能 模块 划分 、 技 术 风险 都 熟悉 的 架构 师 参 与 或 直接 
负责 。 


在 软件 开发 过 程 中 ， 架 构 师 除了 实现 技术 架构 ， 完 成 产品 技术 实 
现 外 ， 还 需要 和 项 目 组 内 外 各 种 角色 沟通 协调 ， 可 以 说 架构 师 相 当 多 


的 时 间 用 在 和 人 打交道 上 。 处 理 好 人 的 关系 对 架构 和 项 目的 成 功 至 关 
重要 。 


染 构 师 作为 项 目 组 最 资深 的 专业 技术 人 员 ， 是 项 目 组 开发 测试 工 
程 师 的 前 非 。 从 架构 师 的 身上 ， 工 程 师 可 以 看 到 自己 的 未 来 ， 因 此 架 
构 师 在 做 人 做 事 方面 需要 严格 要 求 自 己 ， 做 好 表率 。 


14.1 关注 人 而 不 是 产品 


一 定 要 坚信 : 一 群 优秀 的 人 做 一 件 他 们 热爱 的 事 ， 一 定 能 取得 成 
功 。 不 管 过 程 多 么 曲折 ， 不 管 外 人 看 来 多 么 不 可 思议 不 靠 谱 。 


所 以 最 好 的 软件 项 目 管理 不 是 制订 计划 ， 组 织 资源 ， 跟 踪 修 正 项 
目 进 展 ， 对 成 员 进 行 激励 和 惩罚 ， 而 是 发 掘 项 目 组 每 个 成 员 的 优秀 潜 
能 ， 让 大 家 理解 并 热爱 软件 产品 最 终 的 蓝图 和 愿景 。 每 个 人 都 是 为 实 
现 自我 价值 而 努力 ， 不 是 为 了 领 工资 而 工作 。 


一 旦 做 到 这 一 点 ， 项 目 组 每 个 成 员 都 会 自我 驱动 ， 自 觉 合 作 ， 寻 
找 达成 目标 的 最 优 路 径 并 坚 万 不 拔 地 持续 前 进 。 整 个 过 程 中 ， 不 需要 
拙劣 的 胡萝卜 和 大 棒 ， 最 好 的 奖励 融 是 最 终 要 达成 的 目标 本 身 ， 最 大 
的 惩罚 就 是 这 个 美好 的 目标 没有 实现 。 


这 也 是 领导 的 真 谤 : 寻找 一 个 值得 共同 奋斗 的 目标 ， 营 造 一 个 让 
大 家 都 能 最 大 限度 发 挥 自我 价值 的 工作 氛围 。 

没有 懒惰 的 员工 ， 只 有 没 被 激发 出 来 的 激情 。 所 有 强 授 员工 加 班 
的 管理 者 都 应 该 为 自己 的 无 能 而 羞愧 。 


14.2 发 据 人 的 优秀 


有 些 企业 喜欢 挖 优秀 的 人 ， 而 不 是 去 把 自己 打造 成 一 个 培养 优秀 
人 才 的 地 方 。 殊 不 知 : 是 事情 成 就 7 了 人， 而 不 是 人 成 就 了 事 。 指望 优 
秀 的 人 来 帮 有 自己 成 事 ， 不 如 做 成 一 件 事 让 自己 和 参与 的 人 都 变 得 优 
秀 。 


在 前 面 提 到 的 那个 项 目 中 ， 有 一 位 刚 毕 业 不 久 的 同学 ， 分 配给 他 
的 任务 是 调查 某 个 技术 功能 的 实现 。 事 实 上 这 个 功能 已 经 有 开源 的 代 
码 实现 ， 只 需要 将 这 些 代 码 加 入 到 项 目 中 直接 调用 就 可 以 了 ， 但 是 为 
了 让 他 有 较 多 的 时 间 熟 悉 项 目 和 背景 技术 ， 我 没有 上 跟 他 说 你 去 使 用 某 
个 开源 项 目 实现 这 个 功能 ， 而 是 说 你 调查 下 这 个 功能 如 何 实现 。 


后 来 ， 这 个 同学 不 但 找到 了 这 个 功能 的 开源 实现 ， 阅 读 了 文档 和 
代码 ， 还 针对 我 们 项 目的 需求 场景 对 代码 做 了 优化 ， 然 后 又 将 这 些 优 
化 的 代码 提交 给 开源 项 目的 作者 ， 最 后 被 合并 到 开源 项 目 中 。 

可 以 说 ， 他 的 工作 不 只 是 超出 了 我 的 期 望 ， 简 直 就 是 让 我 吃惊 ， 
这 种 吃惊 在 我 的 职业 生涯 中 曾 多 次 出 现 ， 很 多 人 在 工作 中 做 出 的 卓越 
成 果 以 及 表现 出 来 的 优秀 让 我 目 愧 不 如 。 


大 多 数 人 ， 包 括 我 们 自己 ， 都 比 自己 以 为 的 更 优秀 ， 有 些 优秀 需 
要 在 合适 的 环境 中 才 会 被 激发 出 来 ， 比 如 做 一 些 有 挑战 的 事 ， 和 更 优 
秀 的 和 合作， 抑或 拥有 了 超越 目 我 的 勇气 。 


发 所 人 的 优秀 远 比 发 掘 优秀 的 人 更 有 意义 。 


14.3 ”共享 美好 蓝图 


染 构 师 要 和 项 目 组 全 体 成 员 共 同 描绘 一 个 蓝图 ， 这 个 赣 图 是 整个 
团队 能 够 认同 的 ， 是 团队 共同 奋斗 的 目标 。 


蓝图 应 该 是 表述 清楚 的 : 产品 要 做 什么 、 不 做 什么 、 要 达到 什么 


业务 目标 ， 都 需要 描述 清楚 。 


蓝图 应 该 是 形象 的 : 产品 能 为 用 户 创造 什么 价值 、 能 实现 什么 样 
的 市 场 目 标 、 产 品 最 终 会 长 什么 样 ， 都 需要 形象 地 想象 出 来 。 


蓝图 应 该 是 简单 的 : 不 管内 部 还 是 外 部 沟通 ， 都 能 一 句 话说 明 
日 : 我 们 在 做 什么 。 


蓝图 应 该 写 在 软件 架构 设计 文档 的 雇 页 、 写 在 邮件 的 签名 档 、 写 
在 内 部 即时 通信 和 群 的 公告 上 。 


在 项 目 过 程 中 ， 架 构 师 要 保持 对 目标 蓝图 的 关注 ， 对 任何 偏离 蓝 
图 的 设计 和 决定 保持 和 警惕， 错误 的 偏离 要 及 时 修正 ， 必 要 的 变更 要 经 
过 大 家 讨论 ， 并 且 需 要 重新 获得 大 家 的 认同 。 


在 电影 《十 月 围城 》 中 ， 一 个 年 轻 的 革命 党 人 说 “我 一 闭 上 眼睛 ， 
就 看 到 中 国 的 明天 ”。 这 个 明天 就 是 平 雍 革命 的 蓝图 ， 为 了 这 个 美好 的 
明天 他 愿意 抛 头 颅 、 酒 热血 ， 死 而 无 憾 。 创 业者 闭 上 眼睛 就 能 看 到 企 
业 的 明天 ;软件 产品 的 开发 者 闭 上 眼睛 就 能 看 到 软件 实现 价值 的 那 一 
刻 。 这 就 是 蓝图 的 力量 。 


也 许 有 人 会 说 “你 是 在 忽悠 我 吧 ， 只 是 想 让 我 努力 工作 
而 已 "。 青 春 总 会 浙 去 ， 人 总 是 会 死 的 ， 当 有 一 天 你 日 发 区 
苔 回首 往事 ， 你 会 为 无 所 事 事 而 遗憾 ， 但 不 会 为 被 人 忽悠 而 
羞愧 。 批 评 马 云 忽悠 的 人 ， 一 定 为 马云 在 创建 阿里 巴巴 的 时 
候 没 有 忽悠 他 成 为 创始 人 而 遗憾 。 


14.4 ”共同 参与 架构 


架构 师 需要 对 系统 架构 负责 ， 但 并 不 是 说 一 定 要 架构 师 自 己 完成 
染 构 设计 ， 并 要 项 目 团队 严格 遵守 架构 决策 。 


把 架构 和 架构 师 凌 驾 于 项 目 和 项 目 组 之 上 ， 只 会 让 架构 师 变 成 孤 
家 喜人 ， 让 架构 曲 高 和 袁 。 


1. 不 要 只 有 架构 师 一 个 人 拥有 架构 


染 构 师 不 要 把 染 构 当做 自己 的 私有 财产 ， 为 了 维护 染 构 的 纯洁 和 
染 构 师 的 威信 而 不 让 他 人 染指 染 构 。 让 项 目 参 与 者 对 架构 充分 争论 ， 
大 家 越 是 觉得 自己 是 项 目 架构 的 重要 贡献 者 ， 就 越 是 愿意 对 开发 过 程 
承担 责任 ， 越 是 愿意 共同 维护 染 构 和 改善 软件 。 


2. 让 其 他 人 维护 框架 与 架构 文档 


框架 是 架构 的 重要 组 成 部 分 ， 许 多 重要 的 架构 设计 通过 框架 实现 
来 体现 。 但 是 在 软件 开发 过 程 中 ， 染 构 也 需要 根据 需求 不 断 发 展演 
化 ， 框 架 和 架构 文档 也 会 随 之 调整 。 除 非 是 重大 的 重 构 ， 否 则 架构 师 
应 该 让 项 目 组 成 员 维护 框架 和 架构 文档 ， 给 项 目 组 成 员 成 长 的 机 会 也 
让 目 己 有 更 多 的 时 间 去 寻找 更 大 的 挑战 。 


14.5 ”学 会 妥协 


不 要 企图 在 项 目 中 证 明 自 己 是 正确 的 ， 一 定 要 记 住 ， 你 是 来 做 软 
件 的 ， 不 是 来 当 老 大 的 。 所 以 不 要 企图 去 证 明 自己 了 不 起 ， 永 远 也 别 
干 这 种 浪费 时 间 、 伤 害 感 情 的 事 。 


每 次 我 在 做 项 目 迷 失 方 向 , 五 迷 三 道 的 时 候 ， 就 会 想起 这 个 故 
事 ， 提 醒 自 己 是 来 做 软件 的 ， 来 实现 客户 价值 的 ， 不 是 来 证 明 谁 对 谁 
错 的 ， 不 是 来 给 黑熊 XX 的 。 


很 多 时 候 ， 对 架构 和 技术 方案 的 反对 意见 ， 其 实意 味 着 架构 和 技 
术 方 案 被 关注 、 被 试图 理解 和 接受 。 架 构 师 不 应 该 对 意见 过 于 敏感 ， 
这 时 架构 师 应 该 做 的 是 坦率 地 分 享 自己 的 设计 思路 ， 让 别人 理解 自己 
的 想法 并 努力 理解 别人 的 想法 ， 求 同 存 异 。 


对 于 技术 细节 的 争论 应 该 立即 验证 而 不 是 继续 讨论 ， 当 讨论 深入 
到 技术 细节 的 时 候 也 意味 着 问题 已 经 收 鳅 ， 对 于 整体 架构 设计 ， 各 方 
意见 正 趋 于 一 致 。 


而 当 大 家 不 再 讨论 染 构 的 时 候 ， 表 明 架 构 已 经 融入 到 项 目 、 系 统 
和 开发 者 中 了 ， 架 构 师 越 早 被 项 目 组 遗志 ， 越 表示 架构 非常 成 功 ;项 
目 组 越 离 不 开架 构 师 ， 越 表示 架构 还 有 很 多 缺陷 。 


14.6 成 就 他 人 


我 们 活着 不 是 为 了 工作 ， 不 是 为 了 做 设计 、 写 程序 ， 这 些 不 是 我 
们 生活 的 目的 。 我 们 活着 是 为 了 成 融 我 们 目 己 ， 而 要 想 成 融 目 己 ， 融 
必须 首先 成 就 他 人 。 


每 个 人 都 有 自己 成 就 的 目标 ， 而 工作 是 达成 自我 成 就 的 一 种 手 
段 : 通过 工作 的 挑战 ， 友 掘 目 我 的 洪 能 ， 重 新 认 知 目 我 和 世界 。 


软件 开发 过 程 是 人 的 智力 活动 过 程 ， 软 件 开发 不 仅 是 制造 软件 的 
过 程 ， 也 是 开发 人 员 完 善 自我 、 超 越 自 我 的 过 程 。 所 以 我 们 工作 不 只 
是 生产 产品 ， 还 要 成 束 人 ， 并 最 终 成 就 我 们 目 己 。 


做 成 一 个 项 目 不 但 要 给 客户 创造 价值 ， 为 公司 盈利 ， 还 要 让 项 目 
成 员 获 得 成 长 。 要 让 他 们 觉得 通过 这 个 项 目 ， 自 己 的 知识 技能 和 业务 
水 平 都 得 到 了 提高 。 项 目 结束 时 ， 大 家 会 觉得 不 可 思议 :“ 如 此 完美 的 
产品 ， 如 此 有 挑战 的 开发 居然 都 是 我 们 完成 的 "。 而 且 每 个 人 都 觉得 自 
己 在 项 目 中 至 天 重要 不 可 或 缺 。 


染 构 师 作为 团队 的 技术 领导 者 ， 在 项 目 过 程 中 不 要 去 试图 控制 什 
么 ， 带 着 一 个 弹性 的 计划 和 蓝图 推进 ， 团 队 会 管 好 他 们 自己 。 你 越 是 
强加 禁令 ， 队 伍 就 越 是 没有 纪律 ， 你 越 是 强制 ， 团 队 就 越 是 不 能 独立 
自主 ;你 越 是 从 外 面 寻找 帮 助 ， 大 家 就 越 是 没有 信心 。 


而 一 旦 打造 出 一 个 优秀 的 团队 ， 在 以 后 的 合作 中 ， 面 临 更 大 的 挑 
战 时 ， 架 构 师 就 可 以 从 容 应 对 ， 因 为 你 不 是 一 个 人 在 战斗 。 同 时 一 个 
优秀 的 团队 内 部 也 会 发 生化 学 反应 ， 创 造 出 超出 工作 本 身 的 机 会 ， 开 
启 更 美好 的 明天 。 


15 ”网 站 染 构 师 职 场 攻略 


开发 软件 的 目的 是 为 了 解决 现实 世界 的 问题 ， 但 是 很 多 时 候 人 们 
并 不 清楚 真正 的 问题 是 什么 。 有 可 能 大 家 很 平 苦 地 忙活 了 一 场 ， 发 现 
做 出 来 的 软件 一 点 价值 没有 。 


软件 开发 过 程 中 也 会 遇 到 很 多 问题 ， 需 要 协调 各 方面 的 利益 关系 
获取 尽 可 能 大 的 支持 ， 需 要 平衡 客户 需求 、 软 件 产 出 、 开 发 资源 之 间 
的 关系 ， 需 要 搞定 许多 事情 才能 实现 软件 设计 最 初 的 蓝图 。 


网 站 架构 师 人 在 职场 ， 需 要 处 理 好 个 人 、 团 队 、 公 司 的 利益 。 需 
要 不 断 地 在 工作 中 发 现 问 题 ， 解 决 问题 ， 提 升 工 作 经 验 、 知 识 技能 和 
核心 竞争 力 ， 扩 大 自身 影响 力 ， 达 成 工作 绩效 。 


染 构 师 A 是 刚 加 入 公司 的 新 人 ， 参 与 网 站 基础 搁 术 产品 的 染 构 设 
计 和 开发 。 三 个 月 后 ， 他 发 现 自己 依然 是 个 打杂 的 角色 ， 在 几 个 项 目 
里 承担 不 重要 的 角色 ， 写 一 些 不 重要 的 代码 。 在 之 前 的 公司 里 ， 他 是 
技术 骨干 ， 担 任 核心 角色 ， 而 在 这 里 ， 自 己 可 有 可 无 。 而 且 现 在 公司 
里 确实 高 手 如 云 ， 好 像 没有 解决 不 了 的 问题 ， 不 像 以 前 ， 来 手 问题 非 
得 自己 出 马 才能 搞定 。 


A 陷 入 了 迷 范 。 


15.1 ”发 现 问题 ， 寻 找 突破 


其 实 即 使 是 在 一 流 的 技术 团队 里 ， 也 一 定 有 数 不 清 的 问题 ， 只 是 
人 们 习惯 了 这 些 问题 ， 以 至 于 无 视 它 们 的 存在 。 正 所 谓 “ 鱼 是 最 后 一 个 
看 见 水 的 "， 天 天 面 对 这 些 问题 ， 反 而 不 觉得 有 什么 问题 。 


网 站 发 布 日 加 班 不 是 正常 的 吗 ? 
更 新 系统 配置 参数 难道 不 需要 重 局 系统 吗 ? 
服务 器 宕 机 ， 部 署 在 上 面 的 后 台 定 时 任务 当然 不 会 执行 了 。 


我 们 在 讨论 如 何 发 现 问 题 ， 已 经 在 脑 补 这 三 个 问题 解决 方案 
的 同学 ， 请 你 把 思绪 拉 回 来 。 


而 作为 一 个 新 人 ， 以 局 外 人 的 角度 去 观察 ， 会 发 现 许 多 存在 的 问 


题 。 


这 个 第 三 方程 序 包 已 经 发 布 3.2 版 本 了 ， 有 更 好 的 性 能 和 易 用 性 ， 


而 我 们 还 在 使 用 2.5 版 本 。 
。 业界 已 经 有 很 多 公司 在 自动 化 运 维 方 面 取得 了 成 功 ， 而 我 们 主要 
还 是 人 工 运 维 。 


对 于 大 多 数 应 用 ， 开 源 的 MySQL 数 据 库 已 经 绰 引 有 余 ， 而 我 们 还 
在 使 用 昂贵 的 Oracle 数 据 库 。 


有 些 问 题 在 被 解决 以 后 ， 人 们 才 发 现 事 情 原 来 可 以 这 样 啊 。 淘 宝 
出 现 之 后 ， 人 们 发 现 购物 可 以 更 便宜 、 更 便捷 ; iPhone 出 现 之 后 ， 人 
们 发 现 手 机 原来 可 以 不 光 用 来 打 电 话 发 短信 ; 而 微 信 出 现 之 后 ， 人 入 们 
才 发 现 手机 发 短信 甚至 打 电 话 竟然 可 以 不 伦 钱 。 


所 谓 问 题 ， 就 是 体验 一 期 望 ， 当 体验 不 能 满足 期 望 ， 就 会 觉得 出 
了 问题 。 消 除 问题 有 两 种 手段 : 改善 体验 或 者 降低 期 望 。 降 低 期 望 只 
是 回避 了 问题 ， 而 如 果 直 面 期 望 和 体验 之 间 的 差距 ， 就 会 发 现 问 题 所 
在 ， 找 到 突破 点 。 


A 仔细 观察 了 一 段 时 间 后 ， 发 现 并 记录 下 很 多 网 站 技术 中 存在 的 
问题 ， 经 过 和 团队 成 员 一 番 沟 通 ， 去 除了 那些 积 重 难 返 风 险 太 大 的 、 
影响 较 小 难 出 成 绩 的 、 已 经 有 团队 在 做 的 ， 决 定 解决 应 用 程序 访问 数 
据 库 时 存在 的 安全 漏洞 问题 ， 这 个 漏洞 可 能 会 导致 数据 库 密码 泄露 ， 
安全 无 小 事 ，A 觉 得 可 以 以 此 为 突破 口 ， 打 开局 面 。 


新 员工 Tips 


1. 许多 刚 加 入 公司 的 新 员工 一 开始 就 急 着 要 做 出 成 
绩 ， 但 是 由 于 不 熟悉 环境 ， 四 处 碰壁， 被 打消 了 积极 性 ， 反 
而 不 利于 长 远 发 展 。 其 实 新 员工 首先 要 做 的 事情 是 融入 团 
队 ， 跟 大 家 打成一片 ， 只 要 能 和 团队 一 起 共 进 退 ， 你 就 不 是 
一 个 人 在 战斗 。 等 熟悉 了 情况 ， 知 道 了 水 的 深浅 后 ， 再 寻找 
突破 口 ， 择 机 而 动 。 


2. 新 员工 最 不 需要 做 的 事情 就 是 证 明 上 自己 的 能 力 。 在 
新 环境 中 一 时 施展 不 开 就 怀疑 自己 的 能 力 ， 进 而 担心 被 其 他 
人 怀疑 自己 的 能 力 ， 于 是 努力 想 要 证 明 自 己 ， 但 是 常常 事 与 
愿 违 ， 反 而 出 乱 子 ， 伤 害 了 公司 和 自己 的 利益 。 其 实 既 然 能 
经 过 层 层 考核 和 挑选 进入 公司 ， 就 已 经 证 明 你 有 和 工作 要 求 
相 匹 配 的 能 力 ， 你 要 相信 当初 选中 你 的 同事 的 眼光 和 能 力 。 


A 做 了 一 个 技术 产品 提案 ， 详 细 地 描述 了 问题 现状 ， 架 构 设计 ， 
资源 需求 和 产品 路 线 图 。 这 个 提案 得 到 了 所 在 团队 的 支持 ， 安 排 了 两 
个 工程 师 和 他 一 起 开发 这 个 新 产品 。 几 个 月 后 ， 一 个 可 以 实现 数据 库 
安全 访问 的 程序 包 开发 完成 。 


但 是 当 他 试图 推广 这 个 程序 包 在 网 站 应 用 中 使 用 的 时 候 ， 遇 到 了 
一 点 问题 : 网 站 应 用 架构 师 和 开发 工程 师 并 不 乐意 使 用 这 个 程序 包 ， 
他 们 认为 : 


。 这 个 所 谓 的 安全 漏洞 并 不 严重 ， 也 许 技术 上 有 漏洞 ， 但 是 可 以 通 
过 管理 规范 来 弥补 ， 网 站 运行 这 么 多 年 从 没有 在 这 里 出 现 安全 问 
题 。 

这 个 程序 包 和 以 前 的 程序 包 调用 方式 不 兼容 ， 需 要 投入 专门 的 开 
发 资源 去 改造 ， 网 站 业务 很 性， 没有 资源 。 

这 个 程序 包 依赖 复杂 ， 可 能 会 引入 难以 预料 的 可 用 性 故障 ， 网 站 
今年 已 经 出 现 过 几 次 重大 故障 ， 不 能 再 承受 这 种 可 用 性 故障 的 风 
险 了 。 


软件 开发 出 来 ， 如 果 没 有 投入 使 用 ， 融 一 点 价值 也 没有 ， 不 管 以 
构 设计 和 代码 实现 多 优美 都 没 用 。 


做 出 软件 不 等 于 解决 问题 ， 事 实 上 很 多 问题 确实 也 不 需要 用 软件 
来 解决 。 


生产 出 来 的 软件 实现 不 了 价值 ， 架 构 师 就 体现 不 出 价值 。 


A 应 该 怎么 办 呢 ? 


15.2 ”提出 问题 ， 寻 求 支持 


问题 被 发 现 ， 它 只 是 问题 发 现 者 的 问题 ， 而 不 是 问题 拥有 者 的 问 
题 ， 如 果 想 要 解决 一 个 问题 ， 就 必须 提出 这 个 问题 ， 让 问题 的 拥有 者 
知道 问题 的 存在 。 


在 这 个 例子 中 ， 谁 拥有 数据 库 访 问 密码 安全 漏洞 的 问题 ? 或 者 
说 ， 谁 需要 对 可 能 发 生 的 数据 库 密码 泄露 问题 负责 ? 


这 个 问题 并 不 是 A 的 问题 ， 他 不 负责 网 站 安全 ， 出 了 安全 事故 也 
不 需要 他 负责 ， 但 是 他 既然 发 现 了 潜在 的 危险 ， 就 不 能 坐等 事故 发 生 
后 再 去 处 理 ， 而 且 他 也 确实 需要 一 个 突破 口 去 树立 自己 的 技术 地 位 。 


这 个 问题 是 网 站 各 个 产品 线 上 应 用 架构 师 的 问题 ， 如 果 出 现 密码 
泄露 问题 ， 他 们 需要 承担 责任 ， 但 是 他 们 认为 这 个 问题 不 重要 ， 并 且 
通过 管理 规 学 的 万 式 已 经 解决 了 。 


A 如 果 想 要 推动 它 的 解决 方案 被 接受 ， 就 必须 找到 其 他 问题 拥有 
者 并 愿意 支持 他 的 人 。 


经 过 一 番 思 考 ，A 先 后 给 安全 总 监 和 CTO 写 了 邮件 。 


在 给 安全 总 监 的 邮件 中 ，A 详 细 描 述 了 问题 场景 、 解 决 方案 、 架 
构 设 计 和 目前 遇 到 的 困难 。 


在 给 CTO 的 邮件 中 ，A 用 很 短 的 篇 幅 重 点 描述 了 问题 和 现 有 管理 
规范 的 不 足 ， 以 及 可 能 产生 的 严重 后 果 。 


CTO 收 到 邮件 后 立即 转发 安全 总 监 和 网 站 技术 总 监 。 安 全 总 监 迅 
速 回复 ， 表 示 安 全 团队 和 基础 技术 团队 已 经 展开 合作 并 有 解决 方案 ， 
但 是 需要 网 站 技术 团队 配合 。 网 站 近 术 总 监 也 回复 表示 会 积极 配合 推 
动 此 事 。 


A 得 到 了 安全 团队 的 支持 和 网 站 技术 团队 的 配合 ， 开 始 在 网 站 各 
个 应 用 上 实施 ， 使 用 新 的 数据 库 连 接 程序 包 。 


但 是 很 多 网 站 工程 师 并 不 愿意 积极 配合 ， 他 们 认为 这 件 事 对 网 站 
业务 没有 价值 ， 对 上 自己 没有 价值 ， 徒 增 工 作 量 而 已 。 


A 的 实施 工作 并 不 顺利 。 


提出 问题 Tips 
1. 把 “我 的 间 题 "表述 成 “我 们 的 问题 ” 


大 多 数 人 都 不 喜欢 问题 ， 问 题 意 味 着 麻烦 ， 当 他 听 到 你 
说 “我 遇 到 一 个 问题 "的 时 候 ， 下 意识 地 要 远离 你 和 你 的 问 
题 。 如 果 你 需要 他 的 支持 ， 就 要 想 办 法 把 你 的 问题 变 成 他 的 
问题 ， 是 他 遇 到 了 问题 ， 而 你 来 帮 他 解决 。 


在 多 数 场合 ， 严 格 区 分 “你 的 问题 ”还 是 “我 的 问题 ”意义 
不 大 ， 既 然 你 身 在 其 中 ， 就 是 为 了 解决 问题 ， 所 以 这 个 时 候 
把 问题 表述 成 "我们 的 问题 *， 会 拉 近 彼此 的 距离 。 


“Tom， 我 们 遇 到 了 一 个 问题 。” 
“ 哦 ， 坐 下 来 ， 说 说 看 。” 


2. 给 上 司 提 封 闭 式 问题 ， 给 下 属 提 开 放 式 问题 


不 要 问 上 司 “ 你 觉得 该 怎么 办 ? ”这 种 没有 建设 性 的 开放 
陈 问 题 ， 给 上 司 提问 题 是 希望 能 够 得 到 他 的 支持 ， 而 不 是 市 
着 一 头 雾 水 等 他 去 指点 迷津 。 公 司 付 你 薪水 不 是 让 你 睁 着 迷 
茫 的 眼睛 卖 萌 。 给 上 司 提问 应 该 是 “你 觉得 A 和 B 两 个 方案 哪 
个 更 好 ? ”这 种 封闭 式 问 题 。 


给 下 属 提问 则 相反 ， 用 开放 式 的 问题 局 发 他 去 思考 ， 寻 
找 创新 的 解决 方案 。 


所 以 ， 只 有 “元 方 ， 你 怎么 看 ? ”， 而 没有 “大 人 ， 你 怎 
么 看 ? ”。 


3. 指出 问题 而 不 是 批评 人 


如 果 在 合作 中 出 现 问题 ， 告 诉 他 问题 的 存在 和 其 授 性 ， 
而 不 是 责问 他 为 什么 出 现 问题 。 


人 在 听 到 批评 信息 的 时 候 ， 本 能 地 想 要 去 针对 批评 进行 
反驳 或 者 辩解 ， 于 是 谈话 就 变 成 关于 批评 是 否 合理 的 争论 ， 
离 解 决 问题 越 来 越 远 。 


4. 用 赞同 的 方式 提出 问题 


在 项 目 评审 或 者 讨论 问题 的 时 候 ， 发 现 对 方 的 方案 中 存 
在 缺陷 ， 不 要 直言 “你 这 里 有 问题 *， 对 方 可 能 会 本 能 地 进行 
自我 保护 而 拒绝 你 的 建议 。 


用 一 种 温和 的 方式 提出 问题 “我 非常 赞同 你 的 方案 ， 不 
过 我 有 一 个 小 小 的 建议 .……”。 


所 谓 直言 有 讳 是 指 想 要 表达 的 意图 要 直截了当 说 明白 ， 
不 要 和 兜 轿子， 但 是 在 表达 方式 上 要 有 所 避讳 ， 照 顾 到 当事人 
的 感受 。 


15.3 ”解决 问题 ， 达 成 绩效 


A 在 实施 过 程 中 发 现 ， 虽 然 网 站 工程 师 对 这 个 提供 安全 管理 的 数 
据 库 连接 程序 不 感 兴趣 ， 但 是 他 们 希望 能 改善 现 有 数据 库 连接 程序 的 
性 能 并 能 够 更 容易 地 维护 数据 库 连 接 的 各 种 配置 参数 。 


A 停止 继续 实施 ， 花 了 几 个 星期 的 时 间 重 构 了 数据 库 连接 程序 代 
码 ， 将 性 能 提高 了 50%， 并 且 将 数据 库 密码 和 连接 参数 统一 管理 。 在 
推广 这 个 新 版 本 程序 包 的 时 候 ，A 不 再 强调 其 安全 性 ， 而 是 着 重 宣传 
其 高 性 能 和 易 用 性 。 


网 站 工程 师 看 到 新 的 数据 库 连接 程序 包 不 但 性 能 更 好 ， 而 且 不 需 
要 管理 数据 库 连 接 闻 的 配置 参数 ， 省 了 以 后 维护 的 麻烦 ， 很 乐意 接受 
使 用 这 个 新 的 程序 包 ， 很 快 就 集成 到 应 用 程序 中 ， 部 署 到 生产 环境 。 


而 数据 库 连 接 参 效 的 配置 和 管理 则 提供 了 一 个 管理 后 全 给 效 据 库 
管理 员 (DBA) ， 由 他 们 统一 维护 ，DBA 长 久 以 来 对 各 个 应 用 不 规范 
的 连接 方式 头痛 不 已 ， 现 在 有 个 工具 可 以 让 他 们 控制 管理 应 用 的 数据 
库 连 接 参 数 ， 都 对 此 欣然 叫好 。 


通过 这 个 产品 的 实施 ，A 熟 悉 了 网 站 业务 ， 并 与 网 站 工程 师 建立 
了 深厚 的 革命 友谊 ， 也 树立 了 自己 的 技术 威望 。 


解决 问题 Tips 
1. 在 解决 我 的 问题 之 前 ， 先 解决 你 的 问题 


在 上 面 的 案例 中 ， 推 广 数据 库 连 接 程 序 包 是 A 的 问题 ， 
而 改善 效 据 库 连接 性 能 和 易 用 性 是 网 站 工程 师 的 问题 。 在 A 
成 功 地 解决 了 数据 库 连接 的 性 能 和 易 用 性 问题 后 ， 推 广 数 据 
库 连 接 程 序 包 自然 就 不 是 问题 了 。 


先 解决 别人 的 问题 有 几 个 好 处 : 
。 你 帮 有 别 入 解决 了 问题 ， 礼 尚 往来 ， 别 人 也 会 帮 你 解 


决 问题 。 
。 在 帮 别 人 解决 问题 的 过 程 中 ， 熟 悉 了 情况 ， 后 面 解 


决 自己 的 问题 也 就 得 心 应 手 了 。 

解决 别人 的 问题 时 使 用 的 是 你 的 解决 方案 ， 这 个 方 
案 在 你 的 控制 之 中 ， 将 来 往 这 个 方案 里 再 塞 一 些 东 西 解 
决 自己 的 问题 ， 手 到 擒 来 。 


2. 适当 的 逃避 问题 


有 了 时候 ， 有 些 人 会 提出 一 些 不 怎么 靠 谱 的 问题 和 方案 。 
比如 ， 一 个 急 着 要 表现 自己 能 力 和 价值 的 新 员工 ， 你 如 果 和 
他 直接 说 “不 行 ”， 会 挫伤 他 的 积极 性 ， 而 他 经 过 一 段 时 间 的 
磨合 和 思考 ， 会 自己 意识 到 不 可 行 。 


对 于 这 种 情况 ， 适 当 逃 避 问 题 ， 将 事情 搁置 起 来 是 最 好 
的 办 法 。 


“我 去 开 个 会 ， 我 们 回来 再 谈 。” 
“这 个 idea 非 常 好 ， 我 们 改天 组 织 一 个 会 议 好 好 讨论 一 


* 本 章 使 用 的 案例 纯 属 虚 构 。 


16 ”漫话 网 站 架构 师 


对 于 网 站 和 软件 企业 而 言 ， 架 构 师 是 一 个 重要 的 角色 。 对 于 公 
司 ， 架 构 师 引领 公司 的 技术 方向 ， 架 构 师 的 眼界 和 高 度 决定 了 公司 的 
技术 高 度 ; 对 于 技术 团队 ， 架 构 师 的 决策 和 技术 方案 影响 工程 师 的 开 
发 模式 和 工作 量 。 一 个 称职 的 架构 师 是 公司 的 宝贵 财富 ， 而 一 个 不 合 
格 的 架构 师 可 能 会 成 为 开发 团队 的 区 厦 ， 所 谓 将 无 能 ， 累 死 三 军 。 


对 于 大 型 网 站 而 言 ， 公 司 有 很 多 架构 师 ， 他 们 的 角色 、 能 力 和 影 
响 力 各 不 相同 ， 大 致 可 分 为 以 下 几 类 。 这 些 分 类 方式 是 非 正 式 的 ， 仅 
供 诸位 看 官 一 乐 ， 读 者 请 勿 以 此 给 自己 所 在 公司 的 架构 师 贴标签 。 


16.1 ” 按 作用 划分 架构 师 
设计 型 架构 师 


也 就 是 一 般 意 义 上 的 架构 师 ， 负 责 系统 架构 设计 ， 同 时 也 要 负责 
染 构 的 实施 落地 、 演 化 发 展 、 推 广 重 构 。 


救火 型 架构 师 


苑 当 救火 队员 的 角色 ， 系 统 出 现 故障 或 者 “灵异 现象 "， 会 请 他 们 
出 马 解决 ， 有 时 重要 而 紧急 的 项 目 也 会 由 此 类 架构 师 主持 。 他 们 通 单 
是 公司 的 元 老 ， 对 系统 有 全 局 性 的 认识 ， 知 道 水 有 多 深 ?”。 


布道 型 架构 师 


对 某 一 领域 有 较 深刻 的 认识 ， 有 时 候 甚 至 是 坚定 的 技术 信仰 ， 乐 
于 同 他 人 分 享 自己 的 知识 ,希望 能 够 推广 自己 的 技术 主张 ， 此 类 架构 
师 通常 有 较 好 的 个 人 影响 力 。 但 有 时 ， 由 于 自身 的 局 限 或 者 不 能 跟 上 
技术 潮流 的 发 展 ， 会 成 为 忽悠 型 的 “< 大师” 偶像 派 的 专家 。 


Geek 型 架构 师 


架构 师 中 的 Geek， 对 某 些 技术 问题 的 研究 达到 疯狂 偏执 的 境地 ， 
精益 求 精 追 求 完美 。 通 常 由 于 知识 技能 不 够 全 面 ， 不 符合 许多 企业 对 
染 构 师 “ 高 大 全 ”的 要 求 ， 此 类 架构 师 常 有 怀才不遇 之 惑 。 


16.2” 按 效果 划分 架构 师 
夏 尔 巴 人 架构 师 


夏 尔 巴 人 生活 在 喜马拉雅 山 蕊 ， 协 助 探险 队 或 者 登山 爱好 者 攀登 
那些 8000 米 以 上 被 称 为 “生命 的 禁区 ”的 雪山 ， 帮 助 他 们 运送 给 养 到 突 
击 队 营地 ， 以 及 作为 向 导 带 领 登山 队员 登 顶 。 每 一 次 成 功 对 于 登山 队 
员 是 一 次 自我 的 超越 ， 而 对 于 夏 尔 巴 人 ， 不 过 是 完成 了 一 个 工作 。 


夏 尔 巴 人 架构 师 通 常会 开发 项 目 中 最 具 技 术 难 度 和 挑战 性 的 模 
块 ， 从 而 为 整个 项 目的 顺利 进行 铺 平 道路 。 


斯 巴 达 人 架构 师 


传说 在 古 希腊 ,城邦 之 间 发 生 战 争 ， 如 果 有 城邦 向 斯 巴 达 人 求 
援 ， 斯 巴 达 人 只 会 派出 一 个 人 去 协助 ， 但 只 要 这 一 个 人 就 可 以 扭转 战 
局 。 


不 管 项 目 有 多 么 艰难 复杂 ， 只 要 有 斯 巴 达 人 架构 师 ， 大 家 就 会 坚 
信 ， 项 目 一 定 能 顺利 完成 。 斯 巴 达 人 架构 师 带 给 项 目 组 的 ， 不 只 是 技 
术 和 方法 ， 更 重要 的 是 必 胜 的 信念 。 这 种 信念 是 架构 师 自己 积累 起 来 
的 气 场 和 影响 力 。 


达官 贵人 架构 师 


此 类 架构 师 或 者 有 做人 的 学 历 ， 或 者 有 辉煌 的 履历 ， 或 仪表 党 
堂 ， 或 口 吐 连 伦 ， 但 是 公司 里 如 果 有 个 吃 人 的 怪兽 ， 悄 悄 地 把 此 类 溢 
构 师 都 吃 光 了 ， 也 没 人 会 发 现 。 


16.3 ” 按 职责 角色 划分 架构 师 
产品 架构 师 


负责 具体 互联 网 产品 的 技术 架构 。 当 产品 业务 规划 确定 后 ， 产 品 
染 构 师 就 要 开始 产品 的 架构 设计 了 ， 和 运营 团队 确定 PV 数 、 用 户 数 、 
商品 数 等 产品 运营 目标 、 发 展 规划 、 非 功能 指标 ; 和 产品 经 理 确 定 功 
能 需求 、 模 块 划 分 等 功能 目标 ; 和 项 目 经 理 确定 各 种 开发 资源 。 获 得 
必要 的 信息 后 进行 整体 架构 设计 ， 参 与 项 目 开 发 。 产 品 架构 师 一 般 会 
参与 产品 的 整个 生命 周期 。 


基础 服务 架构 师 


有 时 候 也 被 称 为 平台 染 构 师 ， 负 责 开发 基础 框 染 、 公 共 组 件 、 通 
用 服务 等 平台 类 产品 。 在 大 型 互联 网 应 用 中 ， 基础 服务 承担 着 海量 的 
数据 存储 和 核心 业务 处 理 服 务 ， 有 许多 挑战 性 的 工作 。 


基础 设施 架构 师 


负责 网 络 、 存 储 、 数 据 库 运 维 管 理 的 架构 师 ， 此 类 架构 师 一 般 有 
专门 的 称呼 (如 DBA 等 ) 。 


此 外 ， 根 据 具 体 的 职责 ， 在 数据 挖 据 、 搜 索 技 术 、 安 全 诚信 、 运 
维 监控 等 领域 也 有 专门 的 架构 师 。 


16.4” 按 关注 层次 划分 染 构 师 

只 关注 功能 的 架构 师 

架构 目标 只 是 完成 功能 ， 通 常 ， 这 不 叫 架构 。 

关注 非 功能 的 架构 师 

除了 产品 功能 ， 架 构 设 计 也 关注 性 能 、 伸 缩 性 、 安 全 性 、 可 用 
性 、 系 统 未 来 的 扩展 性 ， 以 及 上 线 后 易于 运 维 管理 、 监 控 报警 、 故 障 
修复 等 非 功 能 目标 。 

关注 团队 组 织 与 管理 的 架构 师 


染 构 设计 不 但 关注 功能 目标 和 非 功能 目标 ， 同 时 还 考虑 开发 团队 
的 成 员 特 点 、 进 度 安 排 、 开 发 过 程 等 ， 使 架构 设计 和 项 目 管理 完美 融 


关注 产品 运营 的 架构 师 
架构 设计 不 但 关注 产品 的 各 项 功能 、 非 功能 指标 和 开发 过 程 的 可 


实现 性 ， 还 关注 产品 运营 是 否 合理 方便 ， 能 否 达 到 运营 目标 ， 技 术 架 
构 兼顾 产品 业务 架构 。 


关注 产品 未 来 的 架构 师 


不 但 关注 前 面 提 到 的 所 有 方面 ， 还 会 结合 技术 发 展 趋势 、 公 司 战 
略 目标 、 个 人 及 团队 发 展 方 向， 去 思考 产品 未 来 的 发 展 前 景 。 为 产品 
的 发 展演 化 符合 历史 发 展 趋势 而 设计 并 为 其 英 定 一 个 坚实 的 基础 。 


16.5 ”接口 碑 划 分 架构 师 
最 好 的 架构 师 


和 团队 相处 日 人 ， 通 单 情况 下 团队 成 员 感觉 不 出 他 的 存在 ， 瑶 似 
没有 他 工作 也 可 以 完成 得 很 好 ， 但 是 如 果 他 真 的 离开 了 ， 大 家 就 会 觉 


得 心里 空 沪 沪 ， 疫 了 主心骨 。 
好 的 架构 师 


深 得 团队 成 员 的 敬重 和 信任 ， 承 担 项 目 中 的 重要 设计 开发 工作 ， 
团队 几乎 离 不 开 他 。 


一 般 的 架构 师 


承担 了 项 目 中 大 部 分 的 技术 工作 ， 却 常常 因为 团队 成 员 不 符合 
己 的 期 望 而 经 常 雷 霆 大 发 。 


差 的 架构 师 


既 无 技术 实力 也 不 善于 处 理 人 际 关 系 ， 单 被 团队 成 员 地 和 视 ， 主 要 
工作 是 给 大 家 添乱 、 制 造 笑 话 和 八卦 的 谈资 。 


最 差 的 架构 师 


通过 制造 压力 驱使 团队 成 员 努 力 去 完成 一 些 无 价值 的 工作 ， 让 每 
个 人 都 忙碌 不 堪 以 使 大 家 都 没有 注意 到 他 自己 其 实 并 不 能 胜任 工作 。 
这 种 架构 师 对 组 织 整 体 和 团队 成 员 的 伤害 无 以 复 加 ， 却 常常 因为 敬业 
和 努力 的 形象 而 得 到 老板 的 肯定 。 


16.6” 非 主流 方式 划分 架构 师 
普通 架构 师 


从 问题 和 需求 出 发 ， 结 合 个 人 经 验 、 组 织 资 源 、 业 界 模式 进行 架 
构 设计 ， 中 规 中 矩 ， 能 够 切实 可 行 地 解决 问题 满足 需求 ， 是 架构 师 中 
的 普 ; 通 青年 。 


艺 架构 师 


除了 像 普 通 架 构 师 那样 在 架构 设计 中 解决 问题 ， 文 艺 架构 师 还 会 
在 架构 设计 中 进行 一 些 更 前 瞻 的 思考 和 别出心裁 的 设计 。 此 类 架构 师 
的 设计 文档 通 弟 会 透 着 文艺 青年 的 小 清新 沁 儿 ， 喜 欢 在 文档 的 开头 接 
述 他 们 与 众 不 同 的 设计 理念 和 风格 。 


1 十 1 架构 师 


不 包括 那些 完全 不 能 胜任 架构 设计 工作 的 架构 师 ， 此 类 架构 师 喜 
欢 在 架构 设计 中 堆砌 概念 和 模式 ， 设 计 文档 宏大 而 不 着 调 ， 面 面 俱 到 
却 不 解决 具体 问题 ， 说 起 来 头头 是 道 却 不 知 如 何 落地 。 其 根源 不 是 不 
了 解 真正 的 问题 就 是 不 掌握 正确 的 方法 。 有 时 候 也 不 排除 这 样 一 种 可 
能 性 : 做 架构 设计 的 目的 是 为 了 炫耀 自己 知道 这 么 多 术语 。 


附录 A ”大 型 网 站 染 构 技术 一 览 


本 书 关 于 架构 技术 原理 的 组 织 方式 以 架构 要 素 作为 维度 ， 从 系统 
性 能 、 可 用 性 、 伸 缩 性 、 扩 展 性 、 安 全 性 几 个 角度 阐述 网 站 架构 技术 
要 点 。 还 有 另 一 种 较为 直观 的 组 织 方式 是 从 不 同 架 构 层 次 所 使 用 的 网 
站 架构 技术 这 个 维度 进行 描述 的 。 


网 站 系统 架构 层次 如 图 A.1 所 示 。 


前 强 染 构 


应 用 层 架 构 


服务 层 以 构 


赂 上 时 晒 儿 末 稍 滋 


存 博 后 架构 
后 人 台 染 构 


数据 中 心机 房 架 构 


图 A.1 网 站 系统 架构 层 


1。 前端 架构 


前 端 指 用 户 请 求 到 达 网 站 应 用 服务 器 之 前 经 历 的 环节 ， 通 常 不 包 
含 网 站 业务 逻辑 ， 不 处 理 动态 内 容 。 


浏览 器 优化 技术 


并 不 是 优化 浏览 器 ， 而 是 通过 优化 响应 页 面 ， 加 快 浏览 器 页 面 的 
加 载 和 显示 ， 常 用 的 有 页 面 缓存 、 合 并 HTTP 减 少 请 求 次 数 、 使 用 页 面 
压缩 等 。 


CDN 


内 容 分 发 网 络 ， 部 署 在 网 络 运 营 商 机 房 ， 通 过 将 静态 页 面 内 容 分 
到 离 用 户 最 近 的 CDN 服 务 器 ， 使 用 户 可 以 通过 最 短路 径 获 取 内 容 。 


动静 分 离 ， 静 态 资源 独立 部 署 


静态 资产， 如 JS、CSS 等 文件 部 署 在 专门 的 服务 器 集群 上 ， 和 Web 
应 用 动态 内 容 服 务 分 离 ， 并 使 用 专门 的 〈 二 级 ) 域名 。 
图 片 服务 


图 片 不 是 指 网 站 Logo、 按 钮 图 标 等 ， 这 些 文件 属于 上 面 提 到 的 静 

态 资 源 ， 应 该 和 JS、CSS 部 署 在 一 起 。 这 里 的 图 片 指 用 户 上 传 的 图 

片 ， 如 产品 图 片 、 用 户头 像 等 ， 图 片 服务 同样 使 用 独立 部 署 的 图 片 服 
务 器 集群 ， 并 使 用 独立 〈 二 级 ) 域名 。 


反 向 代理 


部 署 在 网 站 机 房 ， 在 应 用 服务 器 、 静 态 资源 服务 器 、 图 片 服务 器 
之 前 ， 提供 页 面 缓存 服务 。 


DNS 


域名 服务 ， 将 域名 解析 成 卫 地 址 ， 利 用 DNS 可 以 实现 DNS 负载 均 
衡 ， 配 置 CDN 也 需要 修改 DNS， 使 域名 解析 后 指向 CDN 服 务 器 。 


2。 应 用 层 架 构 
应 用 层 是 处 理 网 站 主要 业务 逻辑 的 地 方 。 
开发 框架 


网 站 业务 是 多 变 的 ， 网 站 的 大 部 分 软件 工程 师 都 是 在 加 班 加 点 开 
发 网 站 业务 ， 一 个 好 的 开发 框架 至 关 重 要 。 一 个 好 的 开发 框架 应 该 能 
够 分 离 关 注 面 ， 使 美工 、 开 发 工程 师 可 以 各 司 其 事 ， 易 于 协作 。 同 时 
还 应 该 内 置 一 些 安全 策略 ， 防 护 Web 应 用 攻击 。 

页 面 泻 染 

将 分 别 开 发 维护 的 动态 内 容 和 静态 页 面 模板 集成 起 来 ， 组 合成 最 
终 显示 给 用 户 的 完整 页 面 。 


负载 均衡 


将 多 台 应 用 服务 器 组 成 一 个 集群 ， 通 过 负载 均衡 技术 将 用 户 请 求 
分 发 到 不 同 的 服务 器 上 ， 以 应 对 大 量 用 户 同 时 访问 时 产生 的 高 并 发 负 
载 压力 。 


Session 管 理 


为 了 实现 高 可 用 的 应 用 服务 器 集群 ， 应 用 服务 器 通常 设计 为 无 状 
态 ， 不 保存 用 户 请 求 上 下 文 信息 ， 但 是 网 站 业务 通常 需要 保持 用 户 会 
话 信 息 ， 需 要 专门 的 机 制 | 管理 Session， 使 集群 内 甚至 跨 集 群 的 应 用 服 
务 器 可 以 共享 Session。 


动态 页 面 静态 化 


对 于 访问 量 特别 大 而 更 新 又 不 很 频繁 的 动态 页 面 ， 可 以 将 其 静态 
化 ， 即 生成 一 个 静态 页 面 ， 利 用 静态 页 面 的 优化 手段 加 速 用 户 访问 ， 
如 反 向 代理 、CDN、 浏 览 器 缓存 等 。 


业务 拆 分 


将 复杂 而 又 庞大 的 业务 拆 分 开 来 ， 形 成 多 个 规模 较 小 的 产品 ， 独 
立 开发 、 部 署 、 维 护 ， 除 了 降低 系统 耦合 度 ， 也 便于 数据 库 业 务 分 
库 。 按 业务 对 关系 数据 库 进 行 拆 分 ， 技 术 难 度 相对 较 小 ， 而 效果 又 相 
对 较 好 。 


虚拟 化 服务 器 


将 一 台 物 理 服务 器 虚拟 化 成 多 台 虚 拟 服务 器 ， 对 于 并 发 访问 较 低 
的 业务 ， 更 容易 用 较 少 的 资源 构建 高 可 用 的 应 用 服务 器 集群 。 


3。 服 务 层 架 构 


提供 基础 服务 ， 供 应 用 层 调 用 ， 完 成 网 站 业务 。 
分 布 式 消息 


利用 消息 队列 机 制 ， 实 现 业务 和 业务 、 业 务 和 服务 之 间 的 异步 消 
息 发 送 及 低 耦 合 的 业务 关系 。 


分 布 式 服 务 


提供 高 性 能 、 低 耦合 、 易 复 用 、 易 管理 的 分 布 式 服务 ， 在 网 站 实 
现 面向 服务 架构 (SOA) 。 


分 布 式 缓存 


通过 可 伸缩 的 服务 器 集群 提供 大 规模 热点 数据 的 缓存 服务 ， 是 网 
站 性 能 优化 的 重要 手段 。 


分 布 式 配置 


系统 运行 需要 配置 许多 参数 ， 如 果 这 些 参数 需要 修改 ， 比 如 分 布 
式 缓存 集群 加 入 新 的 缓存 服务 器 ， 需 要 修改 应 用 程序 客户 端的 缓存 服 
务 器 列表 配置 ， 并 重启 应 用 程序 服务 器 。 分 布 式 配置 在 系统 运行 期 提 
供 配置 动态 推送 服务 ， 将 配置 修改 实时 推送 到 应 用 系统 ， 无 需 重启 服 


务 器 。 
4. 存储 层 架 构 
提供 数据 、 文 件 的 持久 化 存储 访问 与 管理 服务 。 
分 布 式 文件 


网 站 在 线 业 务 需 要 存储 的 文件 大 部 分 都 是 图 片 、 网 页 、 视 频 等 比 
较 小 的 文件 ， 但 是 这 些 文件 的 数量 非常 庞大 ， 而 且 通 常 都 在 持续 增 
加 ， 需 要 伸缩 性 设计 比较 好 的 分 布 式 文件 系统 。 


关系 数据 库 


大 部 分 网 站 的 主要 业务 是 基于 关系 数据 库 开 发 的 ， 但 是 关系 数据 
库 对 集群 伸缩 性 的 支持 比较 差 。 通 过 在 应 用 程序 的 数据 访问 层 增加 数 
据 库 访问 路 由 功能 ， 根 据 业 务 配 置 将 数据 库 访问 路 由 到 不 同 的 物理 数 
据 库 上 ， 可 实现 关系 数据 库 的 分 布 式 访问 。 


NoSQL 数 据 库 


目前 各 种 NoSQL 数 据 库 层出不穷 ， 在 内 存 管 理 、 数 据 模型 、 集 群 
分 布 式 管理 等 方面 各 有 优势 ， 不 过 从 社区 活跃 性 角度 看 ，HBase 无 疑 
是 目前 最 好 的 。 


数据 同步 


在 支持 全 球 范 围 内 数据 共享 的 分 布 式 数据 库 技术 成 熟 之 前 ， 拥 有 
多 个 数据 中 心 的 网 站 必须 在 多 个 数据 中 心 之 间 进 行 数据 同步 ， 以 保证 
每 个 数据 中 心 都 拥有 完整 的 数据 。 在 实践 中 ， 为 了 减轻 数据 库 压力 ， 
将 数据 库 的 事务 日 志 (或 者 NoSQL 的 写 操作 Log) 同步 到 其 他 数据 中 
心 ， 根 据 Log 进 行 数据 重 六 ， 实 现 数据 同步 。 


5。 后台 架 构 


网 站 应 用 中 ， 除 了 要 处 理 用 户 的 实时 访问 请 求 外 ， 还 有 一 些 后 台 
非 实 时 数据 分 析 要 处 理 。 


搜索 引擎 


即使 是 网 站 内 部 的 搜索 引擎 ， 也 需要 进行 数据 增 量 更 新 及 全 量 更 
新 、 构 建 索引 等 。 这 些 操作 通过 后 台 系 统 定时 执行 。 


数据 仓库 
根据 离线 数据 ， 提 供 数据 分 析 与 数据 挖掘 服务 。 
推荐 系统 


社交 网 站 及 购物 网 站 通过 挖掘 人 和 人 之 间 的 关系 ， 人 和 商品 之 间 
的 关系 ， 发 掘 潜在 的 人 际 关 系 和 购物 兴趣 ， 为 用 户 提 供 个 性 化 推荐 服 


务 。 


6. 数据 采集 与 监控 


监控 网 站 访问 情况 与 系统 运行 情况 ， 为 网 站 运营 决策 和 运 维 管理 
提供 支持 保障 。 


浏览 器 数据 采集 


通过 在 网 站 页 面 中 鲍 入 JS 脚 本 采集 用 户 浏览 器 环境 与 操作 记录 ， 
分 析 用 户 行为 。 


服务 器 业务 数据 采集 


服务 器 业务 数据 包括 两 种 ， 一 种 是 采集 在 服务 器 端 记录 的 用 户 请 
求 操作 日 志 ;， 一 种 是 采集 应 用 程序 运行 期 业务 数据 ， 比 如 待 处 理 消 息 
数目 等 。 


服务 器 性 能 数据 采集 


采集 服务 器 性 能 数据 ， 如 系统 负载 、 内 存 使 用 率 、 网 卡 流量 等 。 
系统 


入 


监 
将 前 述 采集 的 数据 以 图 表 的 方式 展示 ， 以 便 运营 和 运 维 人 员 监 控 
网 站 运行 状况 ， 做 到 这 一 步 仅仅 是 系统 监视 。 更 先进 的 做 法 是 根据 采 
集 的 数据 进行 自动 化 运 维 ， 自 动 处 理 系 统 异 常 状况 ， 实 现 自动 化 控 
制 |。 


系统 报警 


如 果 采 集 来 的 数据 超过 预 设 的 正常 情况 的 浆 值 ， 比 如 系统 负载 过 
高 ， 就 通过 邮件 、 短 信 、 语 音 电话 等 方式 发 出 报警 信号 ， 等 待 工程 师 
干预 。 


7。. 安全 架构 
保护 网 站 免 遭 攻击 及 敏感 信息 港 露 。 
Web 攻 击 


以 HTTP 请 求 的 方式 发 起 的 攻击 ， 危 害 最 大 的 就 是 XSS 和 SQL 注入 
攻击 。 但 是 只 要 措施 得 当 ， 这 两 种 攻击 都 是 比较 容易 防范 的 。 


数据 保护 
敏感 信息 加 密 传输 与 存储 ， 保 护 网 站 和 用 户 资产 。 


8. 数据 中 心机 房 架构 


大 型 网 站 需要 的 服务 器 规模 数 以 十 万 计 ， 机 房 物 理 染 构 也 需要 关 
注 。 


机 房 架 构 


对 于 一 个 拥有 十 万 台 服 务 器 的 大 型 网 站 ， 每 台 服 务 器 耗 电 (包括 
服务 器 本 身 耗 电 及 空调 耗 电 ) 每 年 大 约 需要 人 民 币 2000 元 ， 那 么 网 站 
每 年 机 房 电费 就 需要 两 亿 人 民 币 。 数 据 中 心 能 耗 问 题 已 经 日 趋 严重 ， 
Google、Facebook 选 择 数 据 中 心地 理 位 置 的 时 候 趋向 选择 散热 良好 ， 
供电 充裕 的 地 方 。 


机 柜 架构 


包括 机 柜 大 小 ， 网 线 布 局 、 指 示 灯 规格 、 不 间断 电源 、 电 压 规格 
(是 48V 直 流 电 还 是 220V 民 用 交流 电 ) 等 一 系列 问题 。 


服务 器 架构 


大 型 网 站 由 于 服务 器 采购 规模 庞大 ， 大 都 采用 定制 服务 器 的 方式 
代替 购买 服务 器 整 机 。 根 据 网 站 应 用 需求 ， 定 制 硬盘 、 内 存 、 甚 至 
CPU， 同 时 去 除 不 必要 的 外 设 接口 (显示 器 输出 接口 ， 鼠 标 、 键 盘 输 
入 接口 ) ， 并 使 空间 结构 利于 散热 。 


附录 B Web 开 发 技术 发 展 历程 


随 着 互联 网 的 发 展 ，Web 服 务 端 开发 技术 也 经 历 了 几 次 大 的 变 
迁 。 早 期 的 Web 服 务 器 只 简单 地 响应 浏览 器 端的 请 求 ， 返 回 静 态 的 
HTML。 随 着 CGI (Common Gateway Interface， 通 用 网 关 接 口 ) 技术 
的 出 现 ，Web 服 务 端 可 以 根据 不 同 用 户 请 求 产生 动态 页 面 内 容 。CGI 处 
理 动态 请 求 的 基本 过 程 如 图 B.1 所 示 ，Web 服 务 器 将 请 求 数据 交 给 CGI 
程序 ，CGI 程 序 进 行 运算 处 理 ， 生 成 HTML 输 出 ， 通 过 Web 服 务 器 返回 
给 浏览 器 。 早 期 主要 的 CGI 编程 语言 是 Perl， 高 效 便捷 的 开发 特性 使 其 
成 为 当时 许多 网 站 开发 的 首选 。 但 是 Web 服 务 器 通过 启动 独立 进程 的 
方式 调用 CGI 程 序 ， 消 耗 许 多 不 必要 的 系统 资源 。Java Servlet 则 以 线 
程 方式 在 Java Web 容 器 中 调用 Servlet， 较 CGI 方 式 消耗 资源 更 少 。 


一 般 来 说 CGI 技 术 (广义 上 也 包括 Java Servlet) 被 称 作 脚本 模 
式 ，CGI 程 序 需要 解析 HTTP 请 求 ， 处 理 业 务 逻 辑 ， 并 在 输出 流 中 构造 
响应 信息 的 HTML。 这 种 技术 的 优点 和 缺点 是 同一 个 特性 一 一 可 以 在 
CGI 程 序 中 做 任何 事情 。CGI 程 序 在 获得 最 大 处 理 能 力 的 同时 ， 也 给 开 
发 人 员 带 来 了 麻烦 : 负责 编写 业务 逻辑 程序 的 程序 员 不 擅长 处 理 
HTML ， 而 负责 页 面 构造 的 美工 人 员 则 对 程序 束手无策 。 同 样 维 护 这 
样 的 程序 也 是 一 个 亚 梦 ， 业 务 代码 和 页 面 语法 耦合 在 一 起 ， 让 人 无 从 
下 手 。 


PHP 及 随后 ASP、JSP 的 出 现 改善 了 这 一 局 面 ， 与 CGI 在 程序 中 输 
出 HTML 流 正好 相反 ， 开 发 人 员 可 以 在 HTML 中 鲍 入 程序 代码 。 这 种 


模式 被 称 作 服 务 器 页 面 模式 。 直 到 现在 ，PHP 仍 然 是 许多 中 小 型 网 站 
建站 首选 技术 ， 和 Apache、MySQL、Linux 共 同 组 成 一 个 强大 的 web 开 
发 平台 ， 被 称 作 LAMP。 


| 
| 


1: http 请 求 () 


| 
| 


1.1.1: 调用 CGI 程序 () 


1.1.1: 数据 访问 () 
返回 数据 
1.1.2: 业务 处 理 () 


1.1.3: 构造 输出 信息 (). 


返回 CGI 输出 信息 


1.2: 必要 的 http 响应 信息 构造 ()| 


返回 http 响应 


图 B.1 “CGI 程序 调用 时 序 模 型 


既然 CGI 程序 擅长 处 理 请 求 信息 ， 而 服务 器 页 面 擅长 构造 响应 页 
面 ， 那 么 能 不 能 将 两 者 结合 起 来 呢 ? 答案 就 是 MVC (模型 -视图 -控制 
器 ) 模式 ， 如 图 B.2 所 示 ， 控 制 器 接收 处 理 所 有 的 HTTP 请 求 ， 根 据 请 
求 信息 将 其 分 发 给 不 同 的 模型 对 象 处 理 ， 再 根据 模型 处 理 结 果 选 择 构 
造 视 图 ， 得 到 最 终 响 应 信息 。 使 用 MVC 模 式 可 以 很 好 地 分 离 模型 与 视 
图 ， 使 二 者 完全 解 看 ， 互 相 影 响 降 到 最 低 。 


模型 和 视图 分 离 为 系统 开发 维护 带 来 了 诸多 好 处 ， 为 目前 Web 开 
发 流畅 的 分 层 架构 模式 奠定 了 基础 。 分 层 模 式 可 以 更 进一步 分 离 天 注 
面 和 降低 系统 的 耦合 性 ， 通 过 分 层 ， 陋 离 上 层 对 下 层 的 直接 依赖 ， 上 
层 设 计 无 需 过 多 考虑 下 层 实 现 ; 各 层 之 间 较 少 耦合 ， 只 要 保持 接口 规 
范 不 变 ， 各 层 可 以 随意 替换 和 复 用 。Web 开 发 中 通 单 将 服务 端 划分 为 


三 层 : 表现 层 、 业 务 逻 辑 层 和 数据 源 层 。 表 现 层 完成 视图 展现 和 用 户 
交互 ; 业务 逻辑 层 实 现 系 统 的 核心 逻辑 ; 数据 产 层 负责 数据 存储 、 交 
换 和 通信 。 这 种 层次 划分 是 逻辑 上 的 ， 物 理 部 署 上 多 个 层 会 作为 一 个 
应 用 部 署 在 一 起 。 


| 


1: http 请 求 0 1.1: | 统一 处 理 http 请 求 0 | 


| | 
"| 1.1.1:! 获 取 请 求 数据 0 
1.1.2: 业务 逻辑 处 理 01 "| 


1.1.3: 选择 视图 0 


1.1.4: 添加 视图 数据 () 
Pa | a 
1.1.5: 跳 转 到 视图 0 | 

1 1 
| ME 跳 转 0 > 
| | 1.1.5.1.1: 获取 视图 数据 0 
| 1.1.5.1.2. 获取 视图 数据 0 
| 


1.1.5.1.2.1: http 响应 0 1 攻 


图 B.2 MVC 系 统 调用 时 序 模型 


上 面 简单 回顾 了 Web 开 发 的 技术 发 展 历 程 和 一 些 早 期 主要 架构 模 
式 ， 这 些 模式 在 企业 Web 应 用 开发 中 也 有 许多 实践 。 但 是 随 着 互联 网 
应 用 的 快速 发 展 ， 需 求 场景 和 业务 领域 都 有 一 些 和 传统 企业 应 用 不 同 
的 特点 ， 对 系统 的 可 用 性 、 扩 展 性 、 响 应 性 能 、 伸 缩 性 、 安 全 性 都 提 
出 了 更 高 的 要 求 ， 网 站 技术 架构 也 和 企业 应 用 技术 架构 脱离 ， 走 上 了 
一 条 更 具 创 新 性 的 发 展 之 路 。 


后 记 


这 是 一 本 讲 大 型 网 站 架构 设计 的 书 ， 但 是 大 型 网 站 不 是 设计 出 来 
的 ， 而 是 逐步 发 展 六 化 出 来 的 。 


不 要 企图 去 设计 一 个 大 型 网 站 ! 


有 些 传统 企业 进 革 互联网， 凭借 其 雄厚 的 资金 、 丰 富 的 行业 经 
验 、 近 乎 垄断 的 市 场地 位 ， 试 图 在 互联 网 领域 开发 一 个 大 型 网 站 复制 
其 在 传统 行业 的 优势 地 位 。 但 是 互联 网 发 展 运行 有 其 自己 的 规律 ， 短 
暂 的 互联 网 历史 已 经 一 再 证 明 这 种 企图 是 行 不 通 的 。 


垄断 、 有 牌照 、 行 业 壁 侍 、 国 有 资本 、 行 政 资源 ， 这 些 在 传统 行业 
呼风唤雨 的 魔法 到 了 互联 网 领域 只 会 被 嘲笑 、 被 捉弄 。 庞 大 只 是 笨拙 
而 已 ， 壁 垒 只 会 男 地 为 牢 ， 没 什么 了 不 起 。 


互联 网 没有 门槛 ， 谁 都 可 以 进来 玩 ， 但 是 进来 后 ， 最 好 把 那些 陈 
上 日 的 思想 和 包容 放下 ， 重 新 来 过 。 


互联 网 是 一 个 开放 和 分 享 的 世界 ， 这 里 是 创新 者 的 乐园 ， 探 险 者 
的 处 女 地 。 只 要 你 努力 ， 富 有 想象 力 和 聪明 才智 ， 能 为 用 户 创造 价 
值 ， 能 推动 社会 进步 ， 不 管 你 开始 时 多 么 弱小 ， 总 有 机 会 迅速 聚集 资 
金 、 人 才 和 注意 力 ， 在 的 时 间 内 发 展 壮大 。 


互联 网 是 一 种 精神 ， 一 种 开放 、 分 享 、 自 由 的 精神 ; 越 是 付出 不 
问 回报 ， 越 是 获得 丰厚 的 回报 ; 越 是 不 设 边界 ， 越 是 拥有 整个 世界 。 


互联 网 是 一 种 颠覆 ， 打 碎 所 有 的 藩篱 ， 给 所 有 人 平等 表达 和 获取 的 机 
会 ， 每 个 人 都 可 以 发 出 自己 的 声音 。 互 联网 是 一 种 建设 ， 重 塑 人 们 的 
思维 方式 和 社会 运行 方式 ， 建 设 一 个 人 和 人 彼此 理解 信任 的 大 同 世 
界 。 


互联 网 正在 并 将 继续 改变 这 个 世界 ， 一 切 才 刚刚 开始 ， 你 我 正 生 
办 其 时 ! 


